pyg-team
diff --git a/‎CHANGELOG.md‎
Lines changed: 1 addition & 0 deletions b/‎CHANGELOG.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎examples/tabular_image.py‎
Lines changed: 165 additions & 0 deletions b/‎examples/tabular_image.py‎
Lines changed: 165 additions & 0 deletions
diff --git a/‎pyproject.toml‎
Lines changed: 1 addition & 0 deletions b/‎pyproject.toml‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎test/data/test_dataset.py‎
Lines changed: 12 additions & 1 deletion b/‎test/data/test_dataset.py‎
Lines changed: 12 additions & 1 deletion
diff --git a/‎test/nn/encoder/test_stype_encoder.py‎
Lines changed: 43 additions & 0 deletions b/‎test/nn/encoder/test_stype_encoder.py‎
Lines changed: 43 additions & 0 deletions
diff --git a/‎test/test_stype.py‎
Lines changed: 3 additions & 1 deletion b/‎test/test_stype.py‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎torch_frame/__init__.py‎
Lines changed: 2 additions & 0 deletions b/‎torch_frame/__init__.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎torch_frame/_stype.py‎
Lines changed: 12 additions & 1 deletion b/‎torch_frame/_stype.py‎
Lines changed: 12 additions & 1 deletion
diff --git a/‎torch_frame/config/__init__.py‎
Lines changed: 3 additions & 0 deletions b/‎torch_frame/config/__init__.py‎
Lines changed: 3 additions & 0 deletions
@@ -8,6 +8,7 @@ The format is based on [Keep a Changelog](http://keepachangelog.com/en/1.0.0/).
 
 ### Added
 
+- Added `image_embedded` and one tabular image dataset ([#344](https://github.com/pyg-team/pytorch-frame/pull/344))
 - Added benchmarking suite for encoders ([#360](https://github.com/pyg-team/pytorch-frame/pull/360))
 - Added dataframe text benchmark script ([#354](https://github.com/pyg-team/pytorch-frame/pull/354))
 - Added `DataFrameTextBenchmark` dataset ([#349](https://github.com/pyg-team/pytorch-frame/pull/349))
 
@@ -0,0 +1,165 @@
+import argparse
+import os
+import os.path as osp
+
+import torch
+import torch.nn.functional as F
+from PIL import Image
+from torch import Tensor
+from tqdm import tqdm
+from transformers import AutoImageProcessor, AutoModel
+
+from torch_frame import stype
+from torch_frame.config import ImageEmbedder, ImageEmbedderConfig
+from torch_frame.data import DataLoader
+from torch_frame.datasets import DiamondImages
+from torch_frame.nn import (
+    EmbeddingEncoder,
+    FTTransformer,
+    LinearEmbeddingEncoder,
+    LinearEncoder,
+)
+
+parser = argparse.ArgumentParser()
+parser.add_argument("--channels", type=int, default=256)
+parser.add_argument("--num_layers", type=int, default=4)
+parser.add_argument("--batch_size", type=int, default=512)
+parser.add_argument("--lr", type=float, default=0.0001)
+parser.add_argument("--epochs", type=int, default=30)
+parser.add_argument("--seed", type=int, default=0)
+parser.add_argument(
+    "--model",
+    type=str,
+    default="google/vit-base-patch16-224-in21k",
+    choices=[
+        "microsoft/resnet-18",
+        "google/vit-base-patch16-224-in21k",
+        "microsoft/swin-base-patch4-window7-224-in22k",
+    ],
+)
+
+args = parser.parse_args()
+
+# Image Embedded
+# ================ ResNet ===================
+# Best Val Acc: 0.2864, Best Test Acc: 0.2789
+# ================== ViT ====================
+# Best Val Acc: 0.4173, Best Test Acc: 0.4110
+# ================= Swin ====================
+# Best Val Acc: 0.4345, Best Test Acc: 0.4274
+
+
+class ImageToEmbedding(ImageEmbedder):
+    def __init__(self, model_name: str, device: torch.device):
+        super().__init__()
+        self.model_name = model_name
+        self.preprocess = AutoImageProcessor.from_pretrained(model_name)
+        self.model = AutoModel.from_pretrained(model_name).to(device)
+        self.model.eval()
+        self.device = device
+
+    def forward_embed(self, images: list[Image]) -> Tensor:
+        inputs = self.preprocess(images, return_tensors="pt")
+        inputs["pixel_values"] = inputs["pixel_values"].to(self.device)
+        with torch.no_grad():
+            res = self.model(**inputs).pooler_output.cpu().detach()
+            if "resnet" in self.model_name:
+                res = res.squeeze(dim=(2, 3))
+        return res
+
+
+torch.manual_seed(args.seed)
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+
+# Prepare datasets
+path = osp.join(osp.dirname(osp.realpath(__file__)), "..", "data",
+                "diamond_images")
+os.makedirs(path, exist_ok=True)
+
+col_to_image_embedder_cfg = ImageEmbedderConfig(
+    image_embedder=ImageToEmbedding(args.model, device), batch_size=10)
+dataset = DiamondImages(path,
+                        col_to_image_embedder_cfg=col_to_image_embedder_cfg)
+
+model_name = args.model.replace('/', '')
+filename = f"{model_name}_data.pt"
+dataset.materialize(path=osp.join(path, filename))
+dataset = dataset.shuffle()
+train_dataset, val_dataset, test_dataset = dataset[:0.8], dataset[
+    0.8:0.9], dataset[0.9:]
+
+train_tensor_frame = train_dataset.tensor_frame
+val_tensor_frame = val_dataset.tensor_frame
+test_tensor_frame = test_dataset.tensor_frame
+train_loader = DataLoader(train_tensor_frame, batch_size=args.batch_size,
+                          shuffle=True)
+val_loader = DataLoader(val_tensor_frame, batch_size=args.batch_size)
+test_loader = DataLoader(test_tensor_frame, batch_size=args.batch_size)
+
+stype_encoder_dict = {
+    stype.categorical: EmbeddingEncoder(),
+    stype.numerical: LinearEncoder(),
+    stype.image_embedded.parent: LinearEmbeddingEncoder(),
+}
+
+model = FTTransformer(
+    channels=args.channels,
+    out_channels=dataset.num_classes,
+    num_layers=args.num_layers,
+    col_stats=dataset.col_stats,
+    col_names_dict=train_tensor_frame.col_names_dict,
+    stype_encoder_dict=stype_encoder_dict,
+).to(device)
+optimizer = torch.optim.AdamW(model.parameters(), lr=args.lr)
+
+
+def train(epoch: int) -> float:
+    model.train()
+    loss_accum = total_count = 0
+
+    for tf in tqdm(train_loader, desc=f"Epoch: {epoch}"):
+        tf = tf.to(device)
+        pred = model(tf)
+        loss = F.cross_entropy(pred, tf.y)
+        optimizer.zero_grad()
+        loss.backward()
+        loss_accum += float(loss) * len(tf.y)
+        total_count += len(tf.y)
+        optimizer.step()
+    return loss_accum / total_count
+
+
+@torch.no_grad()
+def test(loader: DataLoader) -> float:
+    model.eval()
+    accum = total_count = 0
+
+    for tf in loader:
+        tf = tf.to(device)
+        pred = model(tf)
+        pred_class = pred.argmax(dim=-1)
+        accum += float((tf.y == pred_class).sum())
+        total_count += len(tf.y)
+
+    accuracy = accum / total_count
+    return accuracy
+
+
+metric = "Acc"
+best_val_metric = 0
+best_test_metric = 0
+
+for epoch in range(1, args.epochs + 1):
+    train_loss = train(epoch)
+    train_metric = test(train_loader)
+    val_metric = test(val_loader)
+    test_metric = test(test_loader)
+    if val_metric > best_val_metric:
+        best_val_metric = val_metric
+        best_test_metric = test_metric
+
+    print(f"Train Loss: {train_loss:.4f}, Train {metric}: {train_metric:.4f}, "
+          f"Val {metric}: {val_metric:.4f}, Test {metric}: {test_metric:.4f}")
+
+print(f"Best Val {metric}: {best_val_metric:.4f}, "
+      f"Best Test {metric}: {best_test_metric:.4f}")
@@ -33,6 +33,7 @@ dependencies=[
     "torch",
     "tqdm",
     "pyarrow",
+    "Pillow",
 ]
 
 [project.optional-dependencies]
 
@@ -4,11 +4,13 @@
 import torch
 
 import torch_frame
+from torch_frame.config.image_embedder import ImageEmbedderConfig
 from torch_frame.config.text_embedder import TextEmbedderConfig
 from torch_frame.data import DataFrameToTensorFrameConverter, Dataset
 from torch_frame.data.dataset import canonicalize_col_to_pattern
 from torch_frame.data.stats import StatType
 from torch_frame.datasets import FakeDataset
+from torch_frame.testing.image_embedder import RandomImageEmbedder
 from torch_frame.testing.text_embedder import HashTextEmbedder
 from torch_frame.typing import TaskType
 
@@ -93,11 +95,16 @@ def test_dataset_inductive_transform():
         -1).all()
 
 
-def test_materalization_and_converter():
+def test_materalization_and_converter(tmpdir):
+    tmp_path = str(tmpdir.mkdir("image"))
     text_embedder_cfg = TextEmbedderConfig(
         text_embedder=HashTextEmbedder(1),
         batch_size=8,
     )
+    image_embedder_cfg = ImageEmbedderConfig(
+        image_embedder=RandomImageEmbedder(1),
+        batch_size=8,
+    )
     dataset_stypes = [
         torch_frame.categorical,
         torch_frame.numerical,
@@ -106,11 +113,14 @@ def test_materalization_and_converter():
         torch_frame.timestamp,
         torch_frame.text_embedded,
         torch_frame.embedding,
+        torch_frame.image_embedded,
     ]
     dataset = FakeDataset(
         num_rows=10,
         stypes=dataset_stypes,
         col_to_text_embedder_cfg=text_embedder_cfg,
+        col_to_image_embedder_cfg=image_embedder_cfg,
+        tmp_path=tmp_path,
     ).materialize()
     expected_parent_feat_size: dict[torch_frame.stype, int] = dict()
     stype_num_cols: dict[torch_frame.stype, int] = dict()
@@ -144,6 +154,7 @@ def test_materalization_and_converter():
         col_to_sep=dataset.col_to_sep,
         col_to_time_format=dataset.col_to_time_format,
         col_to_text_embedder_cfg=dataset.col_to_text_embedder_cfg,
+        col_to_image_embedder_cfg=dataset.col_to_image_embedder_cfg,
     )
     tf = convert_to_tensor_frame(dataset.df)
     assert tf.col_names_dict == convert_to_tensor_frame.col_names_dict
 
@@ -8,6 +8,7 @@
 import torch_frame
 from torch_frame import NAStrategy, stype
 from torch_frame.config import ModelConfig
+from torch_frame.config.image_embedder import ImageEmbedderConfig
 from torch_frame.config.text_embedder import TextEmbedderConfig
 from torch_frame.config.text_tokenizer import TextTokenizerConfig
 from torch_frame.data.dataset import Dataset
@@ -29,6 +30,7 @@
     TimestampEncoder,
 )
 from torch_frame.nn.encoding import CyclicEncoding
+from torch_frame.testing.image_embedder import RandomImageEmbedder
 from torch_frame.testing.text_embedder import HashTextEmbedder
 from torch_frame.testing.text_tokenizer import (
     RandomTextModel,
@@ -435,6 +437,47 @@ def test_text_tokenized_encoder():
             tensor_frame.feat_dict[stype.text_tokenized][key].offset)
 
 
+def test_image_embedded_encoder(tmpdir):
+    tmp_path = str(tmpdir.mkdir("image"))
+    num_rows = 20
+    out_channels = 5
+    dataset = FakeDataset(
+        num_rows=num_rows,
+        stypes=[
+            torch_frame.image_embedded,
+        ],
+        tmp_path=tmp_path,
+        col_to_image_embedder_cfg=ImageEmbedderConfig(
+            image_embedder=RandomImageEmbedder(out_channels=out_channels),
+            batch_size=None,
+        ),
+    )
+    dataset.materialize()
+    tensor_frame = dataset.tensor_frame
+    stats_list = [
+        dataset.col_stats[col_name]
+        for col_name in tensor_frame.col_names_dict[stype.embedding]
+    ]
+    encoder = LinearEmbeddingEncoder(
+        out_channels=out_channels,
+        stats_list=stats_list,
+        stype=stype.embedding,
+    )
+    feat_emb = tensor_frame.feat_dict[stype.embedding].clone()
+    col_names = tensor_frame.col_names_dict[stype.embedding]
+    x = encoder(feat_emb, col_names)
+    # Make sure no in-place modification
+    assert torch.allclose(feat_emb.values,
+                          tensor_frame.feat_dict[stype.embedding].values)
+    assert torch.allclose(feat_emb.offset,
+                          tensor_frame.feat_dict[stype.embedding].offset)
+    assert x.shape == (
+        num_rows,
+        len(tensor_frame.col_names_dict[stype.embedding]),
+        out_channels,
+    )
+
+
 def test_linear_model_encoder():
     num_rows = 20
     out_channels = 8
 
@@ -2,7 +2,7 @@
 
 
 def test_stype():
-    assert len(torch_frame.stype) == 8
+    assert len(torch_frame.stype) == 9
     assert torch_frame.numerical == torch_frame.stype('numerical')
     assert not torch_frame.numerical.is_text_stype
     assert torch_frame.categorical == torch_frame.stype('categorical')
@@ -17,5 +17,7 @@ def test_stype():
     assert torch_frame.text_embedded.is_text_stype
     assert torch_frame.text_tokenized == torch_frame.stype('text_tokenized')
     assert torch_frame.text_tokenized.is_text_stype
+    assert torch_frame.image_embedded == torch_frame.stype('image_embedded')
+    assert torch_frame.image_embedded.is_image_stype
     assert torch_frame.embedding == torch_frame.stype('embedding')
     assert torch_frame.embedding.use_multi_embedding_tensor
@@ -8,6 +8,7 @@
     multicategorical,
     sequence_numerical,
     timestamp,
+    image_embedded,
     embedding,
 )
 from .data import TensorFrame
@@ -30,6 +31,7 @@
     'multicategorical',
     'sequence_numerical',
     'timestamp',
+    'image_embedded',
     'embedding',
     'TaskType',
     'Metric',
 
@@ -25,6 +25,7 @@ class stype(Enum):
         sequence_numerical: Sequence of numerical values.
         embedding: Embedding columns.
         timestamp: Timestamp columns.
+        image_embedded: Pre-computed embeddings of image columns.
     """
     numerical = 'numerical'
     categorical = 'categorical'
@@ -33,12 +34,17 @@ class stype(Enum):
     multicategorical = 'multicategorical'
     sequence_numerical = 'sequence_numerical'
     timestamp = 'timestamp'
+    image_embedded = 'image_embedded'
     embedding = 'embedding'
 
     @property
     def is_text_stype(self) -> bool:
         return self in [stype.text_embedded, stype.text_tokenized]
 
+    @property
+    def is_image_stype(self) -> bool:
+        return self in [stype.image_embedded]
+
     @property
     def use_multi_nested_tensor(self) -> bool:
         r"""This property indicates if the data of an stype is stored in
@@ -51,7 +57,9 @@ def use_multi_embedding_tensor(self) -> bool:
         r"""This property indicates if the data of an stype is stored in
         :class:`torch_frame.data.MultiNestedTensor`.
         """
-        return self in [stype.text_embedded, stype.embedding]
+        return self in [
+            stype.text_embedded, stype.image_embedded, stype.embedding
+        ]
 
     @property
     def use_dict_multi_nested_tensor(self) -> bool:
@@ -79,6 +87,8 @@ def parent(self):
         """
         if self == stype.text_embedded:
             return stype.embedding
+        elif self == stype.image_embedded:
+            return stype.embedding
         else:
             return self
 
@@ -93,4 +103,5 @@ def __str__(self) -> str:
 multicategorical = stype('multicategorical')
 sequence_numerical = stype('sequence_numerical')
 timestamp = stype('timestamp')
+image_embedded = stype('image_embedded')
 embedding = stype('embedding')
@@ -2,9 +2,12 @@
 from .text_embedder import TextEmbedderConfig
 from .text_tokenizer import TextTokenizerConfig
 from .model import ModelConfig
+from .image_embedder import ImageEmbedderConfig, ImageEmbedder
 
 __all__ = classes = [
     'TextEmbedderConfig',
     'TextTokenizerConfig',
     'ModelConfig',
+    'ImageEmbedderConfig',
+    'ImageEmbedder',
 ]
Original file line number	Diff line number	Diff line change
`@@ -33,6 +33,7 @@ dependencies=[`
`33`	`33`	`"torch",`
`34`	`34`	`"tqdm",`
`35`	`35`	`"pyarrow",`
	`36`	`+ "Pillow",`
`36`	`37`	`]`
`37`	`38`
`38`	`39`	`[project.optional-dependencies]`