دانلود مقاله مخلوط گاوس ساختاری (SGMM) و شبکه عصبی برای تعیین هویت گوینده مستقل از متن

دریافت مقاله ترجمه شده مخلوط گاوس ساختاری و شبکه عصبی برای تعیین هویت گوینده – مجله IEEE

تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس ساختاری و شبکه های عصبی
نشریه IEEE
  • عنوان انگلیسی مقاله: Efficient Text-Independent Speaker Verification with Structural Gaussian Mixture Models and Neural Network
  • عنوان فارسی مقاله: تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس ساختاری و شبکه های عصبی
  • دسته: مهندسی برق، مهندسی کامپیوتر و مهندسی پزشکی
  • گرایش های مرتبط با این مقاله: هوش مصنوعی، بیو الکتریک و مهندسی الکترونیک
  • مجله: یافته ها در زمینه گفتار و پردازش صوتی(Transactions on Speech and Audio Processing)
  • دانشگاه: دانشکده مهندسی الکترونیک و کامپیوتر، دانشگاه کرنل، ایتاکا، نیویورک، ایالات متحده آمریکا
  • شناسه شاپا ISSN 1063-6676
  • لینک این مقاله در سایت IEEE
  • رفرنس دارد
  • فرمت فایل ترجمه شده: WORD (قابل ویرایش)
  • تعداد صفحات فایل ترجمه شده: 26
  • جهت دانلود رایگان pdf انگلیسی این مقاله اینجا کلیک نمایید.
  • ترجمه ی سلیس و روان مقاله آماده ی خرید می باشد.

چکیده ترجمه:

ما سیستم یکپارچه ای را در ارتباط با مدل های مخلوط گاوس ساختاری (SGMM) و شبکه های عصبی به منظور دستیابی به راندمان محاسباتی و دقت بالا در ارتباط با تعیین هویت گوینده ارائه می دهیم. مدل پس زمینه ساختاری (SBM) در ابتدا از طریق خوشه بندی زنجیره ای تمام موئلفه های مخلوط گاوس در ارتباط با مدل پس زمینه ساختاری ایجاد می گردد. به این ترتیب، یک فضای اکوستیک به بخش های چندگانه ای در سطوح مختلف قدرت تشخیص، جزء بندی می گردد.

برای هر یک از گوینده های مورد نظر، مدل مخلوط گاوس ساختاری (SGMM) از طریق استدلال حداکثری (MAP) سازگار با مدل پس زمینه ساختاری (SBM) ایجاد می گردد. در هنگام تست، تنها زیرمجموعه کمی از موئلفه های مخلوط گاوس برای هر بردار مختصات محاسبه می گردد تا هزینه محاسبه را به طور قابل توجهی کاهش دهد.

علاوه بر این، امتیازات حاصل شده در لایه های مدل های درخت ساختار، برای تصمیم گیری نهایی از طریق شبکه عصبی ادغام می گردند. وضعیت های مختلفی در بررسی های انجام شده بر روی داده های حاصل از گفتگوهای تلفنی مورد استفاده در ارزیابی هویت گوینده NIST، مقایسه شد. نتایج تجربی نشان می دهد که کاهش محاسبه توسط فاکتور 17 از طریق 5% کاهش نسبی در میزان خطای هم ارز (EER) در مقایسه با خطو مبنا، حاصل می گردد. روش SGMM-SBM (مدل مخلوط گاوس ساختاری- مدل پس زمینه ساختاری)، مزایایی را نسبت به مدل اخیرا مطرح شده GMM (مدل مخلوط گاوس) داشته، که شامل سرعت بالاتر و عملکرد تشخیص بهتر، می باشد.

کلیداژه:

  • خوشه بندی گاوس: Gaussian clustering
  • شبکه عصبی: neural network
  • تعیین هویت گوینده: speaker verification
  • مدل مخلوط گاوس ساختاری: structural Gaussian mixture model

1. مقدمه

تحقیقات بر روی تشخیص گوینده که شامل تعیین هویت و تطبیق موارد می باشد به عنوان یک مورد فعال برای چندین دهه به شمار آورده می شود. هدف این می باشد تا تجهیزانت داشته باشیم که به صورت اتوماتیک فرد خاصی را تعیین هویت کرده یا فرد را از طریق صدای او تشخیص دهیم. بنابر روش های زیست سنجی، تشخیص صدای افراد می تواند در بسیاری از موارد همانند، شبکه های امنیتی، تراکنش های تلفنی و دسترسی به بخش ها کاربرد داشته باشد. گوینده ها به دو گروه تقسیم می شوند.گوینده های هدفمند و گوینده های غیرهدفمند.

لینک دانلود: ترجمه مقاله تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس

مطلب‌جو یک وب سایت با هدف انتشار مقاله، تحقیق، پایان نامه و… می باشد.
پس از انتخاب فایل و مقاله مورد نظر، بر روی لینک دانلود کلیک کنید و مراحل خرید را در سایت میهن همکار انجام دهید.
برای مشاهده ی راهنمای خرید از سایت میهن همکار اینجا کلیک کنید.
در صورت نیاز به هر گونه پشتیبانی بر روی لینک زیر کلیک کنید ویا با شماره تلفن های زیر تماس حاصل فرمایید:
پشتیبانی سایت میهن همکار
شماره تماس: 42274401-041
Email: info[at]mihanhamkar.com

Abstract Efficient text-independent speaker verification with structural Gaussian mixture models and neural network

We present an integrated system with structural Gaussian mixture models (SGMMs) and a neural network for purposes of achieving both computational efficiency and high accuracy in text-independent speaker verification. A structural background model (SBM) is constructed first by hierarchically clustering all Gaussian mixture components in a universal background model (UBM). In this way the acoustic space is partitioned into multiple regions in different levels of resolution. For each target speaker, a SGMM can be generated through multilevel maximum a posteriori (MAP) adaptation from the SBM.

During test, only a small subset of Gaussian mixture components are scored for each feature vector in order to reduce the computational cost significantly. Furthermore, the scores obtained in different layers of the tree-structured models are combined via a neural network for final decision. Different configurations are compared in the experiments conducted on the telephony speech data used in the NIST speaker verification evaluation. The experimental results show that computational reduction by a factor of 17 can be achieved with 5% relative reduction in equal error rate (EER) compared with the baseline. The SGMM-SBM also shows some advantages over the recently proposed hash GMM, including higher speed and better verification performance.

I. Introduction

Research on speaker recognition [1], including identification and verification, has been an active area for several decades. The goal is to have a machine automatically identify a particular person or verify a person’s claimed identity from his/her voice. As one of the techniques in biometrics, speaker recognition can be used in many access control applications, such as network security, phone transactions, room access, etc. The speakers are divided into two groups, the enrolled target speakers and the nontarget speakers or background speakers. Both identification and verification can be classified into text-independent and text-dependent applications based on whether or not the person is required to speak pre-determined words or sentences. The focus of this paper is text-independent speaker verification.

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.