نرم‌افزار جدید گوگل که می تواند هم صحبت شما باشد

eea5f942c6288839b88118259717db7a-760x400

۱۳۹۵-۰۶-۲۷

تیم DeepMind گوگل توانسته به دستاوردی جدید دست پیدا کند. نرم افزاری که می تواند صدایی شبیه صدای انسان تولید کند.

تیم DeepMind گوگل توانسته به دستاوردی جدید دست پیدا کند. نرم افزاری که می تواند صدایی شبیه صدای انسان تولید کند.

به گزارش کلیک، این تیم که در زمینه طراحی شبکه ‌های عصبی سابقه خوبی دارد به فناوری جدیدی دست پیدا کرده.

زمانی که از درون یک نرم ‌افزار یا یک سرویس تحت وب صدایی را می‌ شنوید آن صدا را متعلق به یک انسان در حال صحبت کردن یا یک نرم افزار تبدیل متن به گفتار می دانید که در حال خواندن متنی برای شما است. اما فکر کنید که این صدا مربوط به هیچ کدام از موارد گفته شده نباشد بلکه مربوط به یک روبات باشد. چقدر غافلگیر کننده است نه؟

به نظر می ‌رسد الان زمان آن رسیده که روبات ‌ها کمی شما را غافلگیر کنند به گونه ‌ای که به سختی بتوانید صدای یک روبات را با یک صدای زنده تشخیص دهید. این دقیقا همان دستاوردی است که می خواهیم در موردش صحبت کنیم. فناوری جدیدی که تیم DeepMind گوگل به آن دست پیدا کرده‌.

شاید از این موضوع اطلاع داشته باشید که DeepMind همان شرکتی است که موفق به ساخت آلفاگو شد. برنامه هوش مصنوعی قدرتمندی که برای اولین بار بهترین بازیکن بازی گو جهان را شکست داد. این روزها این تیم روی پروژه ای کار می کند که WaveNet نام دارد.

در حال حاضر، توسعه‌دهندگان با استفاده از دو روش متداول برنامه‌ های تبدیل متن به گفتار را ایجاد می‌کنند:
۱- در روش اول مجموعه بزرگی از کلمات و بخش‌ های گفتاری توسط فردی خوانده می‌شود (Concatenative TTS). در این روش تغییر صدا، دستکاری لهجه و لحن صدا به سختی امکان دارد.

۲- اما در روش دوم کلمات بسته به این که آن‌ ها چگونه باید صدا دهند به صورت الکترونیکی ساخته می ‌شوند(Parametric). در این روش تغییر لهجه، آهنگ صدا و حتی لحن گفتار به سادگی امکان ‌پذیر است. اما صدای تولید شده کاملا مصنوعی و به اصطلاح رایج روباتی است. این تیم DeepMind برای آن‌ که موفق شود یک برنامه تبدیل متن به گفتار را ایجاد کند، به‌ طوری که صدای نهایی مثل صدای یک انسان به نظر برسد، شکلی از امواج صوتی خام ضبط شده از گفتار انسانی را در قالب داده‌ هایی به عنوان خوراک ورودی به شبکه عصبی خود وارد کرد.

شکل امواج (waveforms) بازنمایی بصری از اشکالی است که صوت ها به خود می ‌گیرند. درست به همان شکلی که این امواج در دستگاه‌ های پخش‌ کننده موسیقی بالا و پایین می‌ روند. waveNet بر مبنای همین قاعده و بر اساس امواج صوتی منحصر به فرد کار می ‌کند. اگر WaveNet در قالب یک برنامه تبدیل متن به گفتار مورد استفاده قرار گیرد، می تواند متنی که شما تایپ کرده‌ اید را داخل مجموعه ‌ای از واج‌ ها و هجا ها تبدیل کند و در ادامه آن ‌را برای شما بخواند.

افرادی که در آزمایش WaveNet شرکت داشته ‌اند، معتقدند که سامانه جدید بهتر از نمونه ‌های مشابه می تواند مثل انسان ‌ها حرف بزند. DeepMind در خصوص این برنامه گفته: بر اساس آزمایش‌ هایی که بر مبنای زبان ماندارین چینی و انگلیسی انجام شده، این برنامه به میزان ۵۰ درصد موفق شده، شکاف موجود میان عملکرد انسانی و هنر صحبت کردن به شکل انسانی را پر کند.

خبر جدیدتر اینکه در آینده نزدیک قرار است این برنامه هوش مصنوعی در دنیای موسیقی نیز وارد شود. این تیم تعدادی قطعات موسیقی کلاسیک پیانو را در اختیار این شبکه عصبی عمیق قرار داده‌ اند. این برنامه موفق شده نمونه‌ هایی را بر اساس الگوی کاری خودش بسازد.

با این حال هنوز راه درازی در پیش داریم تا بتوانیم از WaveNet در قالب یک برنامه کاربردی استفاده کنیم. اما می توانیم به تعدادی از نمونه‌ های ساخته شده از این برنامه در سایت DeepMind گوش دهیم.

برچسب ها:

نرمافزار،گوگل،صحبت،جدید

افزودن دیدگاه جدید:

متن ساده

HTML محدود