Pretraining and Evaluation on ESC-50 Audio Classification

ESC-50 audio dataset: is an environmental sound classification dataset with 50 classes.

We jointly embedded a raw audio time-series representation on one branch, with its corresponding time-frequency representation on the other branch. The raw audio is processed by a 1-dimensional ResNet-18. We compute the mel spectrogram of the raw audio and process it with a standard ResNet-18.

Table 3 reports the performance of a linear classifier trained one the frozen representations obtained with VICReg and Barlow Twins to a simple supervised baseline where we train a ResNet-18 on the time-frequency representation in a supervised way.

VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning

Preamble

Preamble

Preamble

Task

Collapse Problem

Collapse Problem

Overview of VICReg

VICReg: Detailed Description

Intuition

Formulation

Variance Regularization

Variance Regularization

Covariance Regularization

Invariance Regularization

Total Loss

Implemetation Details

Experiments

Evaluation on ImageNet

Table 1: Evaluation on ImageNet

Transfer Learning on Downstream Tasks

Table 2: Transfer to Other Downstream Tasks

Pretraining and Evaluation on ESC-50 Audio Classification

Table 3: Evaluation on ESC-50 Audio Classification

Pretraining and Evaluation on ESC-50 Audio Classification

Analysis

Table 4: Effect of Incorporating Variance and Covariance Regularization in Different Methods

Table 4: Effect of Incorporating Variance and Covariance Regularization in Different Methods

Conceptual Comparison Between Different Self-Supervised Methods

Conceptual Comparison Between Different Self-Supervised Methods

Relation to Other Self-Supervised Methods

Relation to Barlow Twins

Relation to W-MSE

Relation to BYOL and SimSiam

Relation to SimCLR, SwAV, and OBoW

Discussion

VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning

Preamble

Preamble

Preamble

Task

Collapse Problem

Collapse Problem

Related Work

Related Work - Contrastive Learning

Related Work - Clustering Methods

Related Work - Distillation Methods

Related Work - Information Maximization Methods

Overview of VICReg

VICReg: Detailed Description

Intuition

Formulation

Variance Regularization

Variance Regularization

Covariance Regularization

Invariance Regularization

Total Loss

Implemetation Details

Experiments

Evaluation on ImageNet

Table 1: Evaluation on ImageNet

Transfer Learning on Downstream Tasks

Table 2: Transfer to Other Downstream Tasks

Pretraining and Evaluation on ESC-50 Audio Classification

Table 3: Evaluation on ESC-50 Audio Classification

Pretraining and Evaluation on ESC-50 Audio Classification

Analysis

Table 4: Effect of Incorporating Variance and Covariance Regularization in Different Methods

Table 4: Effect of Incorporating Variance and Covariance Regularization in Different Methods

Table 5: Impact of Sharing Weights or Not Between Branches

Table 5: Impact of Sharing Weights or Not Between Branches

Conceptual Comparison Between Different Self-Supervised Methods

Conceptual Comparison Between Different Self-Supervised Methods

Relation to Other Self-Supervised Methods

Relation to Barlow Twins

Relation to W-MSE

Relation to BYOL and SimSiam

Relation to SimCLR, SwAV, and OBoW

Discussion