personal request

@lucidrains 
Could you please help me write a training and inference script for multimodal generation? Similar to stable diffusion, but transfusion-pytorch, and supports image, text, and audio input and output.
I know this request is rude, but I still made it to you.
Sorry for the inconvenience.