This repository contains my implementation of Persian CLIP and Persian Image Captioning models, designed to improve vision-language tasks for the Persian language.
Since the CLIP model does not perform well for Persian text, I implemented a Persian CLIP model by replacing the CLIP text encoder with ParsBERT and fine-tuning it using contrastive learning. Additionally, I used the learned image encoder to implement a Persian image captioning model using an RNN.
Persian CLIP (Persian CLIP.ipynb)
Persian Image Captioning (Persian Image Captioning.ipynb)
Here are some example outputs from the Persian Image Captioning model:
یک اسکی باز در حال اسکی کردن از تپه ای برفی است. |
مردم در یک بازار شلوغ در فضای باز |
سه دختر جوان د حال بازی با یکدیگر |
گروهی از زنان در حال رقصیدن در یک سالن رقص هستند. |
سه سگ در حال بازی در چمن |
مردی با پیراهن آبی در حال پریدن از روی تخته موج سوار است. |