3.4 The iLearning’s Programming and

3.4 The iLearning’s Programming and Reward Algorithm
To test the system, it was realized a software with Visual Studio 6.0 and Microsoft Agent Technology.
The algorithm used to learn the agents of iLearning system is a reward algorithm based on the Qlearning
algorithm. This technique starts with an initial estimation Q(s,a) for each pair state-action.
When it is selected the action a in the state s, the system receives a reward R(s,a) and it is observed the
next state s
0
. The Q-learning algorithm (Watkins, 1989) [11] appreciates the function value state-action
as follows:
Q(s,a) = Q(s,a) +α ×(R(s,a) +γ ×mina
0Q(s
0
,a
0
)−Q(s,a))
where α ∈ (0,1) is the learning rate, γ ∈ (0,1) is the discount factor and s
0
is the state reached from state
s executing the action a.[1] [5] The conceptual map of the course defines the space of system’s state.
A student with a certain learning style is with his studies in a node of the conceptual map and he was
examined and received notes during the instruction process. The objective of the system is to maximize
the results of students at different evaluations. The contribution of the authors is the adaptation of this
algorithm for the pedagogical agents.
The reward is established through the student’s evaluation in a node of the conceptual map and is
defined according to the equation:
R(s,a) = note
or
R(s,a) = note×pnote+apriorknowledge×pbase
time
where: note is the score received by the student at his/her evaluation in a node of the conceptual map,
apriorknowledge is the score received by students at the initial evaluation (before starting teaching the
course if the student starts the course or the average of the scores received by the student at the evaluations
in the nodes before the current node in the conceptual map), pnote and pbase are parameters.
The algorithm used is:
A Software System for Online Learning Applied in the Field of Computer Science 89
1. start with an array Q for all possible pairs state-action. Each item of the array is initialized with
zero or a small value.
2. the optimal policy is initialized with a supervised policy. Qoptim is initialized with Q.
3. for each student the conceptual map is traversed and the Q array is calculated.
4. the Q is analyzed

0/5000

Dari: -

Ke: -

Hasil (Bahasa Indonesia) 1: [Salinan]

Disalin!

3.4 iLearning pemrograman dan algoritma RewardUntuk menguji sistem, disadari perangkat lunak dengan Visual Studio 6.0 dan teknologi agen Microsoft.Algoritma yang digunakan untuk mempelajari agen-agen sistem iLearning adalah algoritma hadiah berdasarkan Qlearningalgoritma. Teknik ini dimulai dengan perkiraan awal Q(s,a) untuk setiap pasangan tindakan negara.Ketika dipilih tindakan dalam negara s, sistem menerima hadiah R(s,a) dan jatuhberikutnya negara s0. Q-belajar algoritma (Watkins, 1989) [11] menghargai tindakan negara nilai fungsisebagai berikut:Q(s,a) = Q(s,a) + α ×(R(s,a) + γ × mina0Q(s0, a0) −Q(s,a))mana α ∈ (0,1) tingkat belajar, γ ∈ (0,1) adalah faktor diskon dan s0ini negara yang dicapai dari negaras mengeksekusi aksi a. [1] [5] konseptual peta tentu mendefinisikan ruang sistem negara.Mahasiswa dengan gaya tertentu belajar ini dengan pendidikannya di sebuah node peta konseptual dan iamemeriksa dan menerima catatan selama proses instruksi. Tujuan dari sistem ini adalah untuk memaksimalkanhasil siswa di evaluasi. Kontribusi penulis adalah adaptasi inialgoritma untuk agen pedagogis.Pahala didirikan melalui evaluasi siswa dalam sebuah node peta konseptual dan adalahbenda didefinisikan menurut persamaan:R(s,a) = CatatanatauR(s,a) = Catatan × pnote + apriorknowledge × pbasewaktumana: catatan adalah nilai yang diterima oleh siswa di / evaluasi di sebuah node konseptual peta,apriorknowledge adalah nilai yang diterima oleh siswa di evaluasi awal (sebelum memulai mengajarTentu saja jika siswa mulai kursus atau rata-rata nilai diterima oleh siswa di evaluasidi kelenjar sebelum node yang saat ini dalam peta konseptual), pnote dan pbase adalah parameter.Algoritma yang digunakan adalah:Sebuah sistem perangkat lunak untuk pembelajaran Online yang diterapkan di bidang ilmu komputer 891. Mulailah dengan array Q untuk semua pasangan mungkin tindakan negara. Setiap item dari array yang diinisialisasi dengannol atau nilai kecil.2. kebijakan optimal diinisialisasi dengan kebijakan diawasi. Qoptim diinisialisasi dengan Q.3. untuk setiap siswa konseptual peta dilalui dan Q array dihitung.4. Q dianalisis

Sedang diterjemahkan, harap tunggu..

Hasil (Bahasa Indonesia) 2:[Salinan]

Disalin!

3.4 Pemrograman The iLearning dan Reward Algoritma
Untuk menguji sistem, disadari perangkat lunak dengan Visual Studio 6.0 dan Microsoft Agent Teknologi.
Algoritma yang digunakan untuk mempelajari agen sistem iLearning adalah algoritma reward berdasarkan Qlearning
algoritma. Teknik ini dimulai dengan estimasi Q awal (s, a) untuk setiap pasangan negara-aksi.
Ketika dipilih tindakan dalam s negara, sistem menerima hadiah R (s, a) dan teramati pada
negara berikutnya s
0
. Q-algoritma pembelajaran (Watkins, 1989) [11] menghargai nilai fungsi negara-tindakan
sebagai berikut:
Q (s, a) = Q (s, a) + × α (R (s, a) + γ × mina
0Q (s
0
, a
0
) -Q (s, a))
di mana α ∈ (0,1) adalah tingkat pembelajaran, γ ∈ (0,1) adalah discount factor dan s
0
adalah negara mencapai dari negara
s mengeksekusi aksi a. [1] [5] peta konseptual tentu saja mendefinisikan ruang negara sistem.
Seorang siswa dengan gaya belajar tertentu dengan studinya di node dari peta konseptual dan ia
diperiksa dan menerima catatan selama proses instruksi. Tujuan dari sistem ini adalah untuk memaksimalkan
hasil siswa pada evaluasi yang berbeda. Kontribusi penulis adalah adaptasi ini
algoritma untuk agen pedagogis.
Reward yang didirikan melalui evaluasi siswa dalam node dari peta konseptual dan
didefinisikan menurut persamaan:
R (s, a) = catatan
atau
R ( s, a) = catatan × pnote + apriorknowledge × pbase
waktu
di mana: catatan adalah skor yang diterima oleh mahasiswa di / nya evaluasi di sebuah simpul dari peta konseptual,
apriorknowledge adalah skor yang diterima oleh siswa di evaluasi awal (sebelum mulai mengajar
saja jika siswa mulai kursus atau rata-rata skor yang diterima oleh siswa di evaluasi
di node sebelum node saat ini di peta konseptual), pnote dan pbase adalah parameter.
algoritma yang digunakan adalah:
Sistem Software untuk Belajar online Diterapkan di Bidang Ilmu Komputer 89
1. mulai dengan array Q untuk semua kemungkinan pasangan negara-tindakan. Setiap item dari array diinisialisasi dengan
nol atau nilai kecil.
2. kebijakan optimal diinisialisasi dengan kebijakan diawasi. Qoptim diinisialisasi dengan Q.
3. untuk setiap siswa peta konseptual dilalui dan Q array yang dihitung.
4. Q dianalisis

Sedang diterjemahkan, harap tunggu..

Hasil (Bahasa Indonesia) 3:[Salinan]

Disalin!

Sedang diterjemahkan, harap tunggu..

Bahasa lainnya

Dukungan alat penerjemahan: Afrikans, Albania, Amhara, Arab, Armenia, Azerbaijan, Bahasa Indonesia, Basque, Belanda, Belarussia, Bengali, Bosnia, Bulgaria, Burma, Cebuano, Ceko, Chichewa, China, Cina Tradisional, Denmark, Deteksi bahasa, Esperanto, Estonia, Farsi, Finlandia, Frisia, Gaelig, Gaelik Skotlandia, Galisia, Georgia, Gujarati, Hausa, Hawaii, Hindi, Hmong, Ibrani, Igbo, Inggris, Islan, Italia, Jawa, Jepang, Jerman, Kannada, Katala, Kazak, Khmer, Kinyarwanda, Kirghiz, Klingon, Korea, Korsika, Kreol Haiti, Kroat, Kurdi, Laos, Latin, Latvia, Lituania, Luksemburg, Magyar, Makedonia, Malagasi, Malayalam, Malta, Maori, Marathi, Melayu, Mongol, Nepal, Norsk, Odia (Oriya), Pashto, Polandia, Portugis, Prancis, Punjabi, Rumania, Rusia, Samoa, Serb, Sesotho, Shona, Sindhi, Sinhala, Slovakia, Slovenia, Somali, Spanyol, Sunda, Swahili, Swensk, Tagalog, Tajik, Tamil, Tatar, Telugu, Thai, Turki, Turkmen, Ukraina, Urdu, Uyghur, Uzbek, Vietnam, Wales, Xhosa, Yiddi, Yoruba, Yunani, Zulu, Bahasa terjemahan.