MUAZAM, Safa (2024) Image Captioning pada Gambar Objek Wisata di Purbalingga Menggunakan Arsitektur Transformer dan Text-to-Speech Berbasis Website. Skripsi thesis, Universitas Jenderal Soedirman.
PDF (Cover)
COVER-Safa Muazam-H1D020048-Skripsi-2024.pdf Download (331kB) |
|
PDF (Legalitas)
LEGALITAS-Safa Muazam-H1D020048-Skripsi-2024 1.pdf Restricted to Repository staff only Download (2MB) |
|
PDF (Abstrak)
ABSTRAK-Safa Muazam-H1D020048-Skripsi-2024.pdf Download (456kB) |
|
PDF (BabI)
BAB-I-Safa Muazam-H1D020048-Skripsi-2024.pdf Restricted to Repository staff only until 24 July 2025. Download (740kB) |
|
PDF (BabII)
BAB-II-Safa Muazam-H1D020048-Skripsi-2024.pdf Restricted to Repository staff only until 24 July 2025. Download (2MB) |
|
PDF (BabIII)
BAB-III-Safa Muazam-H1D020048-Skripsi-2024 1.pdf Restricted to Repository staff only until 24 July 2025. Download (1MB) |
|
PDF (BabIV)
BAB-IV-Safa Muazam-H1D020048-Skripsi-2024 1.pdf Restricted to Repository staff only Download (7MB) |
|
PDF (BabV)
BAB-V-Safa Muazam-H1D020048-Skripsi-2024 1.pdf Download (558kB) |
|
PDF (DaftarPustaka)
DAFTAR PUSTAKA-Safa Muazam-H1D020048-Skripsi-2024.pdf Download (502kB) |
Abstract
Purbalingga merupakan sebuah wilayah yang terletak di Provinsi Jawa Tengah. Purbalingga menawarkan keindahan alam dan tempat wisata yang menarik. Banyak wisatawan mengabadikan momen kunjungannya dalam bentuk foto/gambar yang kemudian diunggah di media sosial. Namun, sebuah gambar dapat mengandung banyak informasi dan setiap individu dapat menafsirkannya secara berbeda. Tanpa adanya keterangan atau caption pada gambar, manusia akan kesulitan mengurai informasi tersebut. Image captioning mampu mengatasi tantangan ini dengan menghasilkan deskripsi teks otomatis pada gambar. Selain itu, text-to-speech digunakan untuk meningkatkan aksesibilitas bagi penyandang tunanetra dalam memahami keterangan gambar. Penelitian ini bertujuan mengembangkan model image captioning pada gambar objek wisata di Purbalingga menggunakan arsitektur transformer serta ResNet50. Arsitektur transformer menggunakan attention mechanism untuk mempelajari konteks dan hubungan antara input dan output, sementara ResNet50 merupakan jaringan konvolusional yang handal dalam ekstraksi fitur gambar. Evaluasi model menggunakan metrik BLEU, yang membandingkan kalimat prediksi dengan kalimat referensi, menunjukkan hasil terbaik BLEU-{1, 2, 3, 4} = {0.672, 0.559, 0.489, 0.437}. Eksperimen dengan berbagai kombinasi hyperparameter menunjukkan penambahan embedding dan layer meningkatkan waktu pelatihan dan menurunkan skor BLEU, sementara perubahan jumlah head tidak terlalu memengaruhi hasil. Model terbaik diimplementasikan dalam aplikasi berbasis web menggunakan metode SDLC waterfall, framework Flask, dan basis data MySQL. Aplikasi ini memungkinkan pengguna mengunggah gambar objek wisata, mendapatkan deskripsi otomatis dalam bahasa Indonesia, dan mendengarkan caption-nya yang dibacakan secara audio menggunakan fitur text-to-speech berbasis Web Speech API. Hasil pengujian dengan metode blackbox menunjukkan hasil valid pada setiap pengujian, menandakan aplikasi berjalan sesuai kebutuhan dan layak digunakan.
Item Type: | Thesis (Skripsi) |
---|---|
Nomor Inventaris: | H24219 |
Uncontrolled Keywords: | image captioning, objek wisata, text-to-speech, transformer |
Subjects: | I > I32 Image processing software |
Divisions: | Fakultas Teknik > S1 Teknik Informatika |
Depositing User: | Mr Safa Muazam |
Date Deposited: | 22 Jul 2024 01:10 |
Last Modified: | 25 Jul 2024 01:55 |
URI: | http://repository.unsoed.ac.id/id/eprint/27942 |
Actions (login required)
View Item |