GİRİŞ ve AMAÇ: Supraventriküler taşikardi (SVT), genç yetişkinler arasında en yaygın görülen ritim bozukluğudur. Yapay zeka teknolojilerinin hızla ilerlemesiyle birlikte, ChatGPT, Gemini ve Bing Chat gibi doğal dil işleme modelleri (NLPM) tıp alanında giderek daha yaygın hale gelmektedir. Bu çalışmada, ChatGPT-4o, Gemini ve Bing Chat tarafından SVT ile ilgili sıkça sorulan sorulara verilen yanıtların doğruluğunu ve tutarlılığını değerlendirmeyi amaçlıyoruz.
YÖNTEM ve GEREÇLER: SVT ile ilgili elli yaygın soru, bir hafta arayla iki kez ChatGPT-4o, Gemini ve Bing Chat'e soruldu. Her bir doğal dil işleme modelinden (NLPM) alınan yanıtlar, birbirlerinin değerlendirmelerinden habersiz olan iki kardiyolog tarafından değerlendirildi. İçerik, aşağıdaki ölçek kullanılarak puanlandı: tamamen doğru [1], eksik [2] ve yanlış [3].
BULGULAR: Tüm modellerin verdiği yanıtların çoğu “tamamen doğru”, “eksik” veya “yanlış” olarak değerlendirildi. ChatGPT-4o hiçbir “yanlış” yanıt üretmezken, Bing Chat ve Gemini bazı yanlış yanıtlar verdi. Yanıtların doğruluğu açısından ChatGPT-4o %92, Gemini %70 ve Bing Chat %58 doğruluk oranına ulaştı. ChatGPT-4o, %90 ile en yüksek “tekrarlanabilirlik” skorunu elde ederken, onu %86 ile Gemini ve %72 ile Bing Chat takip etti.
TARTIŞMA ve SONUÇ: Çalışmamız, ChatGPT-4o'nun SVT ile ilgili hasta sorularına değerli yanıtlar üretebildiğini ortaya koymuştur. Özellikle ChatGPT-4o olmak üzere doğal dil işleme modelleri (NLPM) gelişmeye devam ettikçe, SVT gibi kronik hastalıkların yönetiminde büyük bir potansiyele sahip olabilirler.
INTRODUCTION: Supraventricular tachycardia (SVT) is the most prevalent among young adults. With the rapid advancement of artificial intelligence technologies, natural language processing models (NLPM) such as ChatGPT, Gemini and Bing Chat are becoming increasingly widespread in the field of medicine. We aim to assess the precision and consistency of responses produced by ChatGPT-4o, Gemini, and Bing Chat, to frequently asked questions regarding SVT.
METHODS: A list of fifty commonly asked questions regarding SVT were inquired twice, with a one-week interval, to ChatGPT 4o, Gemini, and Bing Chat. Two cardiologists assessed the responses from each NLPM, without knowledge of each other’s evaluations. The content was rated using the following scale: completely correct [1], incomplete [2] and incorrect [3].
RESULTS: Most of the responses from all models were rated as either ‘totally correct’, ‘incomplete’or ‘incorrect’. Even though ChatGPT-4o did not generate any ‘incorrect’ answers, Bing Chat and Gemini produced some incorrect responses. Regarding the accuracy of responses, ChatGPT achieved a score of 92%, Gemini obtained 70%, and Bing Chat reached 58%. ChatGPT 4o achieved the highest ‘reproducible’ score at 90%, followed by Gemini at 86% and Bing Chat at 72%.
DISCUSSION AND CONCLUSION: Our study highlighted that ChatGPT-4o is capable of generating valuable answers to patients’ questions related to SVT. As NLPMs especially ChatGPT-4o continue to improve, they hold great potential for the management of chronic conditions like SVT.