Introduction - Amazon Web Services…  · Web view2019. 12. 14. · However, instagram could not...

14
ANALISIS SENTIMEN NEGATIF PADA KOMENTAR INSTAGRAM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE ARTIKEL ILMIAH OLEH APRILIA FAUZIAH NIM 150535601087 UNIVERSITAS NEGERI MALANG FAKULTAS TEKNIK JURUSAN TEKNIK ELEKTRO

Transcript of Introduction - Amazon Web Services…  · Web view2019. 12. 14. · However, instagram could not...

Page 1: Introduction - Amazon Web Services…  · Web view2019. 12. 14. · However, instagram could not be separated from negative word which made by the users, especially in the comment

ANALISIS SENTIMEN NEGATIF PADA KOMENTAR INSTAGRAM

MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

ARTIKEL ILMIAH

OLEH

APRILIA FAUZIAH

NIM 150535601087

UNIVERSITAS NEGERI MALANG

FAKULTAS TEKNIK

JURUSAN TEKNIK ELEKTRO

PROGRAM STUDI S1 TEKNIK INFORMATIKA

JULI 2019

Page 2: Introduction - Amazon Web Services…  · Web view2019. 12. 14. · However, instagram could not be separated from negative word which made by the users, especially in the comment
Page 3: Introduction - Amazon Web Services…  · Web view2019. 12. 14. · However, instagram could not be separated from negative word which made by the users, especially in the comment

ANALISIS SENTIMEN NEGATIF PADA KOMENTAR INSTAGRAM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE (SVM)

Aprilia Fauziah1, Siti Sendari2, Muhammad Iqbal Akbar3

1 Universitas Negeri Malang2 Universitas Negeri Malang3 Universitas Negeri Malang

Abstrak

Instagram merupakan media sosial yang paling populer untuk membagikan video maupun gambar pada zaman sekarang. Namun, instagram tidak lepas dari kata-kata negatif yang dilontarkan oleh penggguna khususnya pada kolom komentar ke unggahan seseorang yang tidak disukai. Hasil riset APJII menyebutkan bahwa sebanyak 75% hingga 80% remaja berusia 12-17 tahun telah menjadi korban bullying karena komentar negatif di instagram. Komentar negatif tersebut umumnya berisi ejekan, hinaan dan kata-kata kasar yang merupakan tindakan cyberbullying. Bahaya dari komentar negatif sangat meresahkan banyak orang dikarenakan dampak yang ditimbulkan. Oleh karena itu, objek penelitian yang dikaji adalah komentar negatif dengan jenis cyberbullying harrasment pada kolom komentar instagram. Metode yang diusulkan untuk klasifikasi teks komentar adalah metode Support Vector Machine (SVM). Dikarenakan dataset yang didapatkan tidak seimbang antara kedua kelas label maka akan menyebabkan nilai akurasi menjadi rendah, oleh karena itu, dibutuhkan teknik oversampling Synthetic Minority Over-Sampling Technique (SMOTE) untuk menangani permasalahan imbalanced data. Penelitian ini bertujuan untuk mengklasifikasikan berdasarkan dua kelas label yaitu komentar negatif cyberbullying dan komentar positif berbahasa indonesia. Dari hasil penelitian didapatkan kesimpulan bahwa penerapan teknik SMOTE berpengaruh terhadap kinerja dari sebuah algoritma klasifikasi dengan data tidak seimbang, terbukti peningkatan kinerja rata-rata model meningkat sebesar 11,16%. Sehingga dengan menerapkan teknik SMOTE dan SVM didapatkan nilai accuracy sebesar 81,16%,, precission sebesar 0,949, recall sebesar 0,658 dan f-meansure sebesar 0,777.Kata kunci: Komentar Instagram, Cyberbullying, SVM, SMOTE

NEGATIVE SENTIMENT ANALYSIS ON INSTAGRAM COMMENTS USING SUPPORT VECTOR MACHINE ALGORITHM

Abstract

 Instagram is the most popular social media to share videos or images in these recent days. However, instagram could not be separated from negative word which made by the users, especially in the comment column for someone posts who doesn’t like it. APJII’s research results that as many as 75% to 80% of adolescane aged 12-17 years have been victims of bullying because of negative comment on Instagram. These negative comments usually contain ridicule, insults and harsh words which are acts of cyberbullying. The dangers of cyberbullying are certainly worried for many people because of its impact. Therefore, the object of this research is negative comment with the type of cyberbullying harrasment on instagram comment. The data used in this study is 800 comment data, consist of 542 positive label and 254 negative label. The condition is called as imbalanced data. The algorithm used is Support Vector Machine (SVM) and implement sampling techniques, i.e Synthetic Minority Oversampling Technique (SMOTE) to overcome the imbalanced data problem. Related research aims to classification comment cyberbullying based negative words. The results of implementation it is proven that application of the SMOTE technique with SVM algorithm better and more efficient than SVM algorithm because it gives an increase in the performance of the average model of 11,16% with data imbalanced. Therefore, after the trial application of both algorithm the accuracy value of 81,16%, precission 0,949, sensitivity 0,658 and fMeasure 0,777.

Keywords: Instagram comment, cyberbullying, SVM, SMOTE

Page 4: Introduction - Amazon Web Services…  · Web view2019. 12. 14. · However, instagram could not be separated from negative word which made by the users, especially in the comment

Analisis Sentimen Negatif pada Komentar Instagram Menggunakan Algoritma Support Vector Machine

I. IntroductionPerkembangan teknologi hadir sebagai solusi untuk

kemudahan dalam mengakses informasi. Pada perkembangannya mendapatkan respon positif dari masyarakat dunia termasuk indonesia. Hal ini terbukti dari riset nasional dari Asosiasi Jasa Internet Indonesia (APJII) terkait jumlah pengguna dan penetrasi internet indonesia pada tahun 2018, dimana mencapai 143,26 juta jiwa dari total populasi penduduk indonesia sebanyak 262 juta jiwa [1]. Pertumbuhan internet juga berpengaruh terhadap pertumbuhan media sosial, karena dengan perkembangan internet banyak pula bermunculan media sosial di internet. Hasil riset APJII menunjukkan bahwa pengguna media sosial aktif di indonesia mencapai 229,2 juta jiwa [1]. Pengguna media sosial di indonesia berdasarkan usia 13-18 tahun mencapai 75,50%, usia 19-24 tahun mencapai 74,23%, usia 35-54 tahun mencapai 44,06% dan usia lebih dari 54 tahun mencapai 1,72% [1].

Pengguna media sosial tersebut cenderung mengakses media sosial popular seperti facebook, instagram, twitter, youtube dan sebagainya. Menurut survey yang dilakukan APJII pada tahun 2016 terdapat tiga media sosial yang paling banyak dikunjungi salah satunya adalah instagram yang berada di posisi ketiga. Media sosial instagram yang termasuk paling cepat dalam jumlah pertumbuhan penggunanya, aplikasi instagram mulai diluncurkan pada tahun 2010 oleh Kevin Systrom dan Mike Krieger, hingga saat ini pengguna aktif instagram telah tercatat kurang lebih 800 juta orang [2]. bahwa pengguna instagram tentunya tidak hanya orang dewasa namun anak-anak dan remaja ikut menggunakan media sosial ini.

Instagram merupakan aplikasi media sosial yang di akses oleh semua kalangan, melalui instagram seseorang dapat mengirimkan informasi dengan cepat yaitu mengunggah foto atau video pada sesama pengguna, mengedit foto maupun berbagi (share) ke jejaring sosial lain. Instagram memiliki beberapa fitur antara lain fitur like dan comment sehingga orang dapat leluasa dalam memberikan apresisasi berupa tanda suka atau komentar pada foto yang di unggah. Pada fitur komentar ini seseorang dapat memberikan komentar terhadap foto atau status yang ditulis. Seringkali komentar yang dikirimkan seseorang merupakan ungkapan isi hati terhadap kehidupan pribadinya atau sesuatu yang menjadi topik pembicaraan di masyarakat. Sehingga, isi komentar tersebut terkadang tidak disadari oleh orang yang membuat, apakah mengandung konten negatif atau tidak. Banyak pengguna yang tidak menyadari bahwa ulasan atau komentar yang dilontarkan merupakan tindakan mencibir atau cyberbullying pada setiap komentar negatif di instagram. Seperti hasil survey dari APJII pada kutipan sebelumnya [1], bahwa pengguna internet di indonesia yang mengakses media sosial tertinggi pada rentang usia 13-18 tahun mencapai 70,50% dan sebanyak 80% remaja berusia 12-17 tahun menjadi korban cyberbullying karena komentar negatif di

media sosial. Dampak yang ditimbulkan dari cyberbullying ini yang sebelumnya riang menjadi murung dan sering menangis dan bahkan depresi. Oleh karena itu, permasalahan yang terjadi di kolom komentar instagram menjadi hal yang penting untuk dikaji sebagai pemrosesan teks untuk analisis sentimen.

Analisis sentimen adalah salah satu cabang dari natural programming language. Proses dari analisis sentimen adalah memahami, mengekstrak data hingga diperoleh informasi[3]. Analisis sentimen atau opinion mining berguna dalam mengelola bahasa alami dan text mining. Menurut [4] tugas dasar dari analisis sentimen adalah mengklasifikasikan teks dalam kalimat atau dokumen. Hasilnya negatif, positif atau netral. Analisis Sentimen diperlukan dalam memfilter komentar di media sosial dan untuk mengetahui komentar negatif dan komentar positif. Dari analisis tersebut, tindakan pencegahan dapat dilakukan untuk korban dan pelaku.

Studi tentang Klasifikasi kata masing-masing telah dilakukan. Sebuah studi tentang analisis komentar cyberbullying Klasifikasi juga telah dilakukan [5] yang berjudul “Cyberbullying Comment Classification on Indonesian Selebgram Using Support Vector Machine (SVM)”. [5] tujuan dari penelitian ini adalah untuk mengklasifikasikan komentar yang mengandung cyberbullying dan tidak. Dalam penelitian ini menghasilkan nilai akurasi sebesar 79,41%. Penelitian lain tentang penggunaan metode komparatif untuk analisis sentimen di twitter juga telah dilakukan [6] yang berjudul “Studi Literatur tentang Perbandingan metode untuk proses Analisis Sentimen di Twitter”. [6] tujuan penelitian ini adalah untuk membandingkan metode SVM dengan metode Naiive Bayes untuk analisis sentimen di twitter di mana metode SVM lebih baik daripada metode Naiive Bayes karena akurasi metode SVM mencapai 82,49%. Selain itu, penelitian tentang membandingkan algoritma klasifikasi dengan fitur ensemble yang ditetapkan pada 1000 tinjauan dokumen telah dilakukan [7] dengan judul “Ensemble of Feature Sets and Classification Algorithm for Sentiment Classification”. [7] tujuan dari penelitian ini adalah untuk menentukan efektivitas teknik ensemble untuk klasifikasi sentimen menggunakan tiga algoritma klasifikasi yaitu Naiive Bayes, Maximum Entropy dan SVM. Hasil perbandingan efektivitas tiga metode klasifikasi, dimana akurasi metode SVM adalah 86,4% lebih baik daripada metode Naiive Bayes yang menghasilkan akurasi 85,8% dan metode Entropy Maksimal 85,4%.

Penelitian lain untuk optimasi algoritma SMOTE dan SVM dalam menangani ketidakseimbangan kelas telah dilakukan [8] berjudul “SVM Classification: Optimization with the SMOTE Algorithm for the Class Imbalance Problem”. [8] tujuan dari penelitian ini adalah untuk membuktikan bahwa teknik SMOTE dapat menangani ketidakseimbangan kelas dan penerapan teknik SMOTE dapat meningkatkan algoritma klasifikasi kinerja.

Aprilia Fauziah, S1Teknik Informatika 2015

Page 5: Introduction - Amazon Web Services…  · Web view2019. 12. 14. · However, instagram could not be separated from negative word which made by the users, especially in the comment

Analisis Sentimen Negatif pada Komentar Instagram Menggunakan Algoritma Support Vector Machine

Berdasarkan latar belakang di atas, penelitian tentang klasifikasi sentimen pada komentar instagram berjudul "Analisis Sentimen Dinamis pada Komentar Instagram menggunakan Algoritma Mesin Vektor Dukungan" adalah hal yang penting untuk dipelajari. Penelitian ini bertujuan untuk mengklasifikasikan berdasarkan dua kelas komentar cyberbullying negatif dan komentar positif dan kombinasi teknik SMOTE oversampling dan algoritma SVM dapat dapat menangani ketidakseimbangan kelas untuk meningkatkan kinerja algoritma klasifikasi.

II. Methods

A. Akuisisi DataDalam penelitian ini, gunakan dataset untuk

mengklasifikasikan komentar positif atau cyberbullying komentar negatif. Dataset ini diperoleh dengan teknik scrapping data pada viewer media sosial instagram, Webstame (https://web.stagram.com). Proses pengumpulan dataset ini dimulai dari 01 Januari hingga 28 Februari 2019 pada 4 akun instagram artis Indonesia yang ditunjukkan pada Tabel 1.

Tabel 1. daftar akun instagram artis indonesia

No Akun Instagram Artis1 Princessyahrini2 Lunamaya 3 Raffinagitta17174 Ayutingting92_

Data komentar yang dikumpulkan dari scrapping menghasilkan 65 komentator dengan 40 foto dan 800 komentar dalam bahasa Indonesia. Data komentar akan dibagi menjadi dua kelas, komentar positif dan komentar negatif cyberbullying. total data komentar untuk masing-masing kelas dapat dilihat pada Tabel 2.

Tabel 2. Proporsi data komentar

Kelas TotalPositif 542Negatif 258

Langkah selanjutnya dari akuisisi data adalah pelabelan data, proses pelabelan ini dilakukan dengan pelabelan manual dan kolom label ditambahkan. Merujuk pada penelitian yang dilakukan oleh Luqyana [9], cyberbullying memiliki beberapa jenis, salah satunya adalah pelecehan. Kriteria untuk data komentar berlabel negatif dengan jenis pelecehan meliputi :1. Komentar mengandung kata-kata kasar,2. Komentar mengandung kata-kata mesum,

3. Komentar berisi kata-kata yang menghina seseorang secara fisiks, dan

4. Komentar berisi kata-kata ancaman.Berdasarkan kriteria yang disebutkan sebelumnya, data

komentar manual diberi label seperti yang ditunjukkan pada Tabel 3 untuk data komentar dari masing-masing akun artis.

Tabel 3. Hasil pelabelan Data Komentar

No Akun Artis Komentar Label 1 Princessyahrini Pangling....Kirain bukan

inces. Cantiiiiik......Positif

2 Lunamaya Ya Alloh, cantiknya alami dari pencipta, sempurna mbak

Positif

3 Raffinagitta1717

Masaallah cantik mamanya rafatar

Positif

4 Ayutingting92_ Kk ayu cantik banget Positif5 Princessyahrini @rahmasaridewik bacottt

luu, semua komentar orang lu balesinn cuih

Negatif

6 Lunamaya Temen makan kontol, makan tuh kontol cowok, pelacur lo

Negatif

B. Pre-processingTahap preprocessing adalah langkah pertama dari

pengolahan teks yang bertujuan untuk mengubah data sesuai dengan proses yang dibutuhkan. Mengacu pada penelitian yang dilakukan oleh Rofiqoh [10] dalam penelitian ini akan membahas beberapa tahap teks preprocessing yang terdiri dari Case folding, data cleaning, Tokenisasi dan Stopword Removal.

1. Case FoldingCase folding adalah proses awal dari preprocessing,

pada proses ini akan mengubah semua kata pada komentar menjadi huruf kecil.2. Data Cleaning

Tahap kedua adalah data cleaning. Proses ini akan menghapus karakter tertentu seperti tanda baca (.,), nama pengguna dan tautan url (@username and https://) serta huruf (1234567890).3. Tokenisasi

Tokenisasi adalah proses memecah kalimat pada komentar menjadi per-kata. Pada tahap ini spasi akan di hapus.4. Stopwords removal

Tahap stopword adalah tahap untuk mengambil kata-kata penting dari hasil token. Daftar kata-kata yang dibuang disebut stoplist. Dalam penelitian ini, daftar stopword yang digunakan mengacu pada penelitian Luqyana [9].

Aprilia Fauziah, S1Teknik Informatika 2015

Page 6: Introduction - Amazon Web Services…  · Web view2019. 12. 14. · However, instagram could not be separated from negative word which made by the users, especially in the comment

Analisis Sentimen Negatif pada Komentar Instagram Menggunakan Algoritma Support Vector Machine

C. Ekstraksi FiturTerm Frequency-Invers Document Frequency adalah

metode yang digunakan untuk menghitung bobot setiap kata sebagai hasil dari tahap pra-pemrosesan. Metode ini akan menghitung nilai trem frequency(TF) dan invers document frequency (IDF) pada setiap kata yang terkandung dalam dokumen. TF adalah proses untuk menghitung frekuensi term dalam satu dokumen, proses ini akan menunjukkan betapa pentingnya kata dalam satu dokumen dan IDF digunakan untuk menghitung term yang muncul dalam berbagai dokumen dan dianggap sebagai term umum.Tahapan dari pembobotan TF-IDF sebagai berikut:1) Menghitung nilai term frequency (TF) pada persamaan

1

tf (d , t)=f (d , t) (1)

2) Menghitung nilai document frequency (DF)3) Menghitung bobot kata dengan invers document

frequency (IDF) pada persamaan 2

idf t=ln Ndf t

(2)

4) Menghitung bobot TF-IDF pada persamaan 3

TF−IDF=tf (d , t)×idf t (3)

Dimana, tf (d , t) : frekuensi kemunculan term t.

idf t : nilai invers dari dokumen yang mengandung term t

N : total data yang digunakan

ln : logaritmik alami (ln a= log a❑e )

df t : jumlah semua dokumen yang mengandung term t.

TF-IDF : pembobotan kata

2.5 Synthetic Minority Oversampling Technique (SMOTE)

SMOTE adalah salah satu teknik oversampling yang paling populer dalam menangani kasus ketidakseimbangan kelas. Teknik ini bekerja dengan membangun sampel data sintesis dari kelas minoritas [11]. Tahapan teknik SMOTE [12] ditunjukkan di bawah ini:1. Menghitung jarak antar kelas data minoritas.2. Menentukan nilai k dan persentase SMOTE.3. Memilih satu contoh dari kelas minoritas secara acak.4. Menentukan tetangga terdekat k dengan mengurutkan

jarak. Perhitungan jarak disini menggunakan persamaan jarak euclidean yang ditunjukkan pada persamaan 4 berikut:

xknn=√( x1− y1 )2+( x2− y2 )2+…+( xn− yn )2(4)

5. Data sintesis yang akan di buat dengan menentukan nilai perubahan antara 0 dan 1 yang ditunjukkan pada persamaan 5 berikut:

xsyn=x i+(xknn−x i)×δ (5)

6. Ulangi langkah 4 dan 5 hingga data kelas minoritas dan mayoritas seimbang.Dimana,

xknn : jarak euclidean dari data ke 1 dengan data ke 2

xsyn : data sintesis dari kelas minoritas

x i : contoh data minoritasδ : nilai random antara 0 dan 1

D. Algoritma Support Vector Machine (SVM)SVM adalah salah satu algoritma yang digunakan dalam

menganalisis pola dan mengenali pola, secara umum digunakan untuk klasifikasi jenis metode supervised learning karena ketika pelatihan itu membutuhkan target pembelajaran tertentu, indeks bobot istilah sebagai fitur [13]–[15]. Pembelajaran SVM pertama kali muncul pada tahun 1992 oleh Bose, Guyon dan Vapink. Karakteristik algoritma SVM, SVM membutuhkan proses pelatihan dengan menyimpan vektor dukungan yang akan digunakan dalam proses pengujian, SVM bekerja berdasarkan prinsip Structural Risk Minimization (SRM) dengan tujuan menemukan hyperplane terbaik yang memisahkan dua kelas dalam input space dan SVM dapat memisahkan data linear dan non-linear [16].

Penelitian yang akan dipelajari meliputi data non-linear, konsep kernel yang digunakan akan mencari nilai hyperplane yang berguna untuk memaksimalkan jarak (margin) antara kelas yang berbeda. Hyperplane akan memisahkan data dalam dua kelompok label yang terbentuk, kelas +1 dan kelas -1 di mana setiap kelas memiliki pola sendiri. Secara umum, pemisah hyperplane optimal telah ditentukan dengan memaksimalkan nilai margin dan meminimalkan kesalahan pelatihan yang diperoleh dalam Persamaan 6 [17] :

minw , b ,ξ i

Q (α )=12

wT w+C∑i=1

l

ξi (6)

batasan dari persamaan 6 ditampilkan sebagai berikut:

y i (wT ∅ ( x i )+b )≥1−ξ i , ξ i≥ 0 , i=1 ,…l

Dikarenakan kemungkinan dimensi tinggi dari variabel vektor w, biasanya untuk menyelesaikan masalah tersebut digunakan persamaan dual, ditunjukkan pada persamaan 7.

minα

12

αT Qα−eT α (7)

Kondisi (7) dapat ditulis sebagai:

yT α=0 ,0 ≤ α ≤ C , i=1 ,…l

Aprilia Fauziah, S1Teknik Informatika 2015

Page 7: Introduction - Amazon Web Services…  · Web view2019. 12. 14. · However, instagram could not be separated from negative word which made by the users, especially in the comment

Analisis Sentimen Negatif pada Komentar Instagram Menggunakan Algoritma Support Vector Machine

Permasalahan (6) dapat diatasi menggunakan perhitungan quadratic programming untuk menemukan vektor normal w untuk hyperplane:

w=∑i=1

N

y i α i x i (8)

Pengambilan keputusan menggunakan algoritma SVM ini digunakan fungsi kernel K ( x i , x j ). fungsi kernel yang digunakan adalah kernel polynomial yang ditunjukkan pada persamaan 9:

K ( x i , x j )=(γ ∙ xiT ∙ x j+r )d dimana γ>0 (9)

Dan fungsi keputusan sebagai berikut:

f ( x )=sign(∑iϵSVy iα i K (x i

T , x j )+b) (10)

E. EvaluasiEvaluasi adalah tahapan untuk menandakan

keberhasilan sesuatu dengan membandingkan hasil pelaksanaan dengan kriteria standar yang telah ditetapkan. Secara umum, evaluasi adalah dalam bentuk confusion matrix. Confusion matrix adalah tabel yang berisi informasi tentang klasifikasi aktual dan prediksi yang dibuat oleh sistem [18]. Confusion matrix ditunukkan pada Tabel 4.

Tabel 4 confusion matrix

Klasifikasi Kelas prediksiNegatif Positif

Kelas aktual

Negatif TP* FN*Positif FP* TN*

*)TP is True Positive, dimana jika kelas aktual “Negatif” di deteksi sebagai “Negatif”, FN is False Negative, dimana kelas aktual “Negatif” di deteksi sebagai “Positif”, FP is False Positif, dimana kelas aktual “Positif” dideteksi sebagai “Negatif”, TP is True Negative, dimana kelas aktual “Positif” di deteksi sebagai “Positif”.

Mengacu pada Table 4, informasi berikut digunakan untuk menemukan nilai akurasi, preisisi, recall dan f-measure. Nilai akurasi digunakan untuk mengukur kualitas model klasifikasi, perhitungan akurasi ditunjukkan pada persamaan 11.

akurasi= TP+TNTP+TN+FN +FP

× 100 % (11)

Preisisi adalah tingkat akurasi dari pencarian informasi yang telah dilakukan dengan hasil klasifikasi berdasarkan sistem, perhitungan nilai presisi ditunjukkan pada persamaan 12.

presisi= TPTP+FP

×100 % (12)

Recall atau sensitifitas adalah tingkat akurasi dari penemuan kembali informasi, perhitungan nilai recall ditunjukkan pada persamaan 13

recall= TPTP+FN

× 100 % (13)

F-measure digunakan untuk mengukur rata-rata harmonik untuk nilai presisi dan recall dan digunakan untuk menguji nilai akurasi, perhitungan nilai f-measure ditunjukkan pada persamaan 14.

fMeasure=2× presisi × recallpresisi+recall

×100 % (14)

F. Desain PenelitianDesain penelitian yang akan dilakukan dibantu

menggunakan perangkat lunak data mining, Weka 3.8 untuk menemukan hasil dari teknik klasifikasi yang diusulkan. Spesifikasi perangkat keras dan lunak yang digunakan seperti Core i5 compter dengan sistem operasi windows 10, 4GB RAM dan 500GB HDD. Alur penelitian ditunjukkan pada Gambar 1.

Gambar 1. Alur penelitian

Gambar 1 menunjukkan bagaimana tahapan pemrosesan dataset dan pengembangan metode untuk mengklasifikasikan komentar instagram sentimen. tahap paling awal dari penelitian ini dimulai dengan menghapus data menggunakan ParseHub pada penampil Instagram, data yang diambil

Aprilia Fauziah, S1Teknik Informatika 2015

Page 8: Introduction - Amazon Web Services…  · Web view2019. 12. 14. · However, instagram could not be separated from negative word which made by the users, especially in the comment

Analisis Sentimen Negatif pada Komentar Instagram Menggunakan Algoritma Support Vector Machine

adalah data komentar dalam bahasa indonesia. Tahap selanjutnya adalah subproses preprocessing. Pada tahap preprocessing ada 4 proses yang merujuk pada penelitian [10]. Proses pertama adalah case folding. Proses ini bertujuan untuk mengubah kata menjadi huruf kecil. Proses kedua adalah data cleaning. Data cleaning digunakan untuk menghapus karakter tertentu seperti tanda baca (.,), username dan link url (@username dan https: //), dan angka (1234567890) yang terkandung dalam data komentar. Proses ketiga adalah tokenisasi. Proses ini bertujuan untuk memecah komentar dalam bentuk kalimat menjadi satu kata. Pada tahap ini spasi putih akan dihapus. Proses terakhir yang terkandung dalam preprocessing adalah stopword removal. stopword removal adalah tahap untuk mengambil kata-kata penting dari hasil token. Daftar kata-kata yang dibuang disebut stoplist. Dalam penelitian ini, daftar stopwords yang digunakan mengacu pada Luqyana [9]. Setelah tahap pra-pemrosesan selesai, proses ekstraksi fitur dilanjutkan, pembobotan TF-IDF yang bertujuan untuk menemukan istilah dengan frekuensi tertinggi dan bobot tinggi. Istilah adalah kata penting yang mewakili kelas dokumen.

Tahap ekstraksi fitur selesai dan proses selanjutnya adalah teknik pengambilan sampel atau algoritma klasifikasi langsung, di mana dalam penelitian ini menggunakan satu teknik pengambilan sampel adalah teknik Oversampling. Teknik Oversampling yang digunakan adalah Synthetic Minority Oversampling Technique (SMOTE). Teknik SMOTE adalah teknik yang digunakan untuk menangani ketidakseimbangan dataset, dalam teknik ini membangun data sintesis dari kelas minoritas untuk menyeimbangkan dataset. Dalam penelitian ini menggunakan 10-fold cross validation untuk mengevaluasi kinerja algoritma klasifikasi. Hasil yang diberikan oleh tes ini adalah nilai akurasi, presisi, recall dan fmeasure. Analisis sentimen dalam penelitian ini menggunakan algoritma klasifikasi SVM dan teknik SMOTE dengan algoritma klasifikasi SVM. Setelah tahap menggunakan algoritma klasifikasi selesai, itu akan dibandingkan dengan hasil kinerja keduanya. Dari hasil perbandingan ini, diharapkan sentimen analisis menggunakan teknik SMOTE dan algoritma klasifikasi SVM memiliki hasil kinerja yang lebih tinggi. Oleh karena itu, analisis sentimen menggunakan teknik SMOTE dan algoritma SVM dapat meningkatkan kinerja proses analisis sentimen pada komentar instagram.

III. Results and Discussion

A. DatasetTahap selanjutnya setelah semua data komentar yang

telah dieksplorasi sebelumnya diproses (langkah preprocessing). Langkah selanjutnya adalah ekstraksi fitur data komentar menggunakan pembobotan TF-IDF. Dalam penelitian ini menggunakan 800 komentar, proporsi masing-masing kelas yang dapat dilihat pada Tabel 2. Pada Tabel 2

menjukkan adanya ketidakseimbangan kelas antara kelas positif dan kelas negatif. Oleh karena itu, diperlukan teknik khusus untuk menyeimbangkan kelas dalam dataset ini. Teknik SMOTE dipilih untuk menangani ketidakseimbangan kelas. Implementasi teknik SMOTE ini akan menyeimbangkan kelas positif dan kelas negatif sesuai dengan persentase yang dimasukkan, persentase yang dimasukkan adalah 110%. Kemudian total data setelah menerapkan teknik SMOTE adalah 1083 data dengan proporsi masing-masing kelas ditunjukkan pada Tabel 5.

Tabel 5. Proporsi data

Kelas SVM SVM dan SMOTEPositif 542 542Negatif 258 541Jumlah 800 1083

B. KlasifikasiKlasifikasi adalah proses pengolahan data komentar

setelah melewati tahap preprocessing, kemudian akan dilakukan proses klasifikasi data komentar menggunakan algoritma klasifikasi Support Vector Machine (SVM) dan Support Vector Machine (SVM) dengan Teknik Minority Oversampling Technique (SMOTE).

Penelitian ini menggunakan kernel polinomial dengan derajat 2 dan γ = 0,001 dan model evaluasi yang digunakan adalah k-fold valisation 10. Hasil klasifikasi analisis sentimen menggunakan algoritma SVM dan menggunakan teknik SMOTE dengan algoritma SVM dengan disajikan matriks kebingungan masing-masing algoritma ditunjukkan pada Tabel 6 dan Tabel 7. Hasil kinerja masing-masing algoritma pada Tabel 8 di bawah ini.

Tabel 6. Confusion matrix dengan Algoritma SVM

Klasifikasi Kelas prediksiNegatif Positif

Kelas aktual

Negatif 22 236Positif 4 538

Tabel 7. Confusion matrix dengan Algoritma SVM dan SMOTE

Klasifikasi Kelas prediksiNegatif Positif

Kelas aktual

Negatif 356 185Positif 19 523

Tabel 8. Kinerja dari masing-masing model

Kinerja SVM SVM dan SMOTE

Aprilia Fauziah, S1Teknik Informatika 2015

Page 9: Introduction - Amazon Web Services…  · Web view2019. 12. 14. · However, instagram could not be separated from negative word which made by the users, especially in the comment

Analisis Sentimen Negatif pada Komentar Instagram Menggunakan Algoritma Support Vector Machine

Akurasi 70% 81,16%Presisi 0,846 0,949Recall 0,085 0,658fMeasure 0,155 0,777

Tabel tersebut menunjukkan hasil klasifikasi algoritma menggunakan SVM dan SMOTE dengan SVM. Penelitian ini menghasilkan klasifikasi kinerja nilai akurasi dalam algoritma SVM 70% kemudian nilai akurasi untuk teknik SMOTE dan algoritma SVM 81,16% di mana terdapat peningkatan 11,16% dibandingkan nilai awal, recall dan peningkatan fMeasure. Ini membuktikan bahwa penerapan teknik SMOTE dalam menangani ketidakseimbangan kelas adalah baik, dan dengan teknik SMOTE dapat meningkatkan kinerja algoritma klasifikasi. chart perbandingan kedua model disajikan pada Gambar 2.

SVM SVM+SMOTE0.00%10.00%20.00%30.00%40.00%50.00%60.00%70.00%80.00%90.00%100.00%

PERBANDINGAN PERFORMA KINERJA ALGORITMA SVM DAN SVM + SMOTE

AccuracyPrecissionRecallFmeasure

jum

lah

(%)

Gambar 2. Perbandingan antara dua model

IV.Conclusion

Dalam penelitian ini, dapat disimpulkan bahwa (1) analisis sentimen negatif menggunakan algoritma Support Vector Machine telah berhasil mengklasifikasikan komentar negatif yang berisi kata-kata pelecehan cyberbullying dan komentar positif, (2) penerapan teknik SMOTE pada algoritma klasifikasi SVM yang menggunakan kernel polinomial, derajat 2 dan nilai γ = 0,001 dalam menangani ketidakseimbangan kelas pada data komentar membuktikan bahwa teknik SMOTE secara efektif meningkatkan kinerja algoritma klasifikasi (3) kinerja algoritma SVM dan teknik SMOTE dapat meningkatkan akurasi ditunjukkan pada Gambar 2 , peningkatan yang terjadi sebelum menggunakan dan setelah menggunakan teknik SMOTE adalah 11,16%, peningkatan nilai precisi adalah 0,103, peningkatan nilai sensitivitas adalah 0,573 dan nilai pengukuran f meningkat 0,622.

References[1] APJII, “Survey Penetrasi dan perilaku pengguna internet Indonesia,” Asos. Penyelenggara Jasa Internet Indones., pp. 1–39, 2017.

[2] Hootsuite, “Global Digital in 2018,” 2018.

[3] M. I. Halim, A. Dwi, A. N. S. T, and C. S. S. T, “Analisis Sentimen Menggunakan Metode Learning Vector Quantization Sentiment Analysis Using Learning Vector Quantization Method,” in e-Proceeding of Engineering, 2017, vol. 4, no. 2, pp. 2283–2292.

[4] L. F. S. Coletta, N. F. F. da Silva, E. R. H. E. R, and H. Jr, “Combining classification and clustering for tweet sentiment analysis Combining Classification and Clustering for Tweet Sentiment Analysis,” in Brazilian Conference on Intelligent Systems, 2014, pp. 210–2015.

[5] M. Andriansyah et al., “Cyberbullying comment classification on Indonesian Selebgram using support vector machine method,” in Proceedings of the 2nd International Conference on Informatics and Computing, ICIC 2017, 2018, vol. 01, pp. 1–5.

[6] N. M. S. Hadna, P. I. Santosa, and W. W. Winarno, “Studi Literatur Tentang Perbandingan Metode untuk Proses Analisis Sentimen di Twitter,” in Seminar Nasional Teknologi Informasi dan Komunikasi, 2016, vol. 2016, no. Sentika, pp. 57–64.

[7] R. Xia, C. Zong, and S. Li, “Ensemble of feature sets and classification algorithms for sentiment classification,” Inf. Sci. (Ny)., vol. 181, no. 6, pp. 1138–1152, 2011.

[8] L. Demidova and I. Klyueva, “SVM Classification : Optimization with the SMOTE Algorithm for the Class Imbalance Problem,”

Aprilia Fauziah, S1Teknik Informatika 2015

Page 10: Introduction - Amazon Web Services…  · Web view2019. 12. 14. · However, instagram could not be separated from negative word which made by the users, especially in the comment

Analisis Sentimen Negatif pada Komentar Instagram Menggunakan Algoritma Support Vector Machine

Mediterr. Conf. Embed. Comput., no. June, pp. 17–20, 2017.

[9] W. A. Luqyana, I. Cholissodin, and R. S. Perdana, “Analisis Sentimen Cyberbullying pada Komentar Instagram dengan Metode Klasifikasi Support Vector Machine,” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 2, no. 11, pp. 4704–4713, 2018.

[10] U. Rofiqoh, R. S. Perdana, and M. A. Fauzi, “Analisis Sentimen Tingkat Kepuasan Pengguna Penyedia Layanan Telekomunikasi Seluler Indonesia Pada Twitter Dengan Metode Support Vector Machine dan Lexion Based Feature,” Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 1, no. 12, pp. 1725–1732, 2017.

[11] N. V Chawla, K. W. Bowyer, and L. O. Hall, “SMOTE : Synthetic Minority Over-sampling Technique,” J. Artifical Intell. Res., vol. 16, pp. 321–357, 2002.

[12] J. Mathew, C. K. Pang, M. Luo, and W. H. Leong, “Classification of Imbalanced Data by Oversampling in Kernel Space of Support Vector Machines,” IEEE Trans. Neural Networks Learn. Syst., pp. 1–12, 2017.

[13] A. S. H. Basari, B. Hussin, I. G. P. Ananta, and J. Zeniarja, “Opinion mining of movie review using hybrid method of support vector machine and particle swarm optimization,” Procedia Eng., vol. 53, pp. 453–462, 2013.

[14] S. K. Lidya, O. S. Sitompul, and S. Efendi, “Sentiment Analysis Pada Teks Bahasa Indonesia Menggunakan Support Vector Machine ( SVM) dan K-Nearest Neighbor (K-NN),” in Seminar Nasional Teknologi dan Komunikasi 2015, 2015, vol. 2015, pp. 1–8.

[15] N. Tarasova, “Classification of Hate Tweets and Their Reasons using SVM,” Uppsala Univ., no. Januari, 2016.

[16] I. Cholissodin, “Pengenalan Pola/ Pattern Recognition.” 2016.

[17] C. Chang and C. Lin, “LIBSVM : A Library for Support Vector Machines,” 2013.

[18] M. N. J. R and K. Balaji, “Performance Analysis of Neural Networks and Support Vector Machines using Confusion Matrix,” Int. J. Adv. Res. Sci. Eng. Technol., vol. 3, no. 5, pp. 2106–2109, 2016.

[19] I. F. Rozi, S. H. Pramono, and E. A. Dahlan, “Implementasi Opinion Mining ( Analisis Sentimen ) untuk Ekstraksi Data Opini Publik pada Perguruan Tinggi,” Electr. Power, Electron. Commun. Control. Informatics Semin., vol. 6, no. 1, pp. 37–43, 2012.

Aprilia Fauziah, S1Teknik Informatika 2015