توسعهدهندگان از اين پس ميتوانند از همان فناوري تبديل متن به گفتاري كه در سرويسهاي گوگل بهكار رفته است، در اپليكيشنهاي خود استفاده كنند.
گوگل اخيرا در وبلاگ خود اعلام كرد كه سرويس متن به گفتار ابري خود را در دسترس جامعهي توسعهدهندگان قرار ميدهد، اين سرويس به توسعهدهندگان امكان ميدهد تا با استفاده از الگوي ويونت (Wavenet) و زيرساخت شبكهي عصبي غول جستجو، صداي طبيعي متن به گفتار را در اپليكيشنهاي خود بهكار بگيرند. فناوري ويونت همان فناوري بهكار رفته در تبديل متن به گفتار برخي از سرويسهاي محبوب گوگل از جمله گوگل اسيستنت، مپس و جستجو است. گوگل در وبلاگ خود اشاره كرد كه جديدترين سرويس آن ميتواند در سامانههاي پاسخ صوتي مراكز تماس بهكار رود، امكان پاسخگويي را در اختيار دستگاههاي اينترنت اشيا قرار دهد و بهصورت خودكار محتواي متني مقالهها و كتابها را نيز به قالبهاي صوتي نظير پادكستها يا كتابهاي صوتي تبديل كند.
توسعهدهندگان ميتوانند از بين ۳۲ صداي مختلف از ۱۲ زبان از جمله انگليسي، پرتغالي، ژاپني، فرانسوي، اسپانيايي و سوئدي دست به انتخاب بزنند؛ با اين حال، گوگل ميگويد كه در آيندهي نزديك صداهاي بيشتري را به اين سرويس افزوده خواهد كرد. علاوهبر اين، افراد ميتوانند حجم صدا، نرخ گفتار و كيفيت صداها را نيز تغيير دهند. همچنين توسعهدهنگان ميتوانند از برچسبهاي نشانهگذاري متن به گفتار (SSML) بهمنظور افزودن مكث، دستورالعملهاي تلفظ و تاريخ به گفتار بهره بگيرند.
گوگل در پست وبلاگ خود جزئيات بيشتري دربارهي بهبودهاي صورتگرفته در الگوي ويونت ارائه داد، اين فناوري در ابتدا در سال ۲۰۱۶ عرضه شد و در آن زمان از يك شبكهي عصبي كانولوشن كه با بهرهگيري از نمونههاي گفتاري مختلفي آموزش داده شده بود، استفاده ميكرد؛ با اين حال، الگوي يادشده بلافاصله با محصولات گوگل ادغام نشد؛ زيرا هنوز براي استفادهي تجاري از آمادگي لازم برخوردار نبود. دو سال پس از عرضهي اين فناوري، اكنون نسخههاي بهروزشده از الگوي ويونت امكان ساخت بسيار سريعتر صدا را فراهم ميكنند. ويونت در سال ۲۰۱۶ در يك ثانيه تنها قادر به توليد ۰.۰۲ ثانيه صدا بود؛ در حالي كه الگوي بهروزشده ميتواند در يك ثانيه، ۲۰ ثانيه صدا توليد كند. علاوه بر اين، الگوي بهروزشده در مقايسه با الگوي اوليه، وضوح و دقت بهتري ارائه ميدهد كه نتيجهي آن توليد صداي باكيفيتتر و شبيهتر به صداي انسان است.
توسعهدهندگاني كه از مزيت سرويس متن به گفتار ابري بهره خواهند گرفت، ميتوانند از بين صداهاي بيسيك و ويونت دست به انتخاب بزنند و براساس تعداد كاراكترهايي كه ماهانه براي ساخت صدا به اين سرويس ارسال ميكنند، ملزم به پرداخت هزينه خواهند شد. صداهاي بيسيك به نحو قابل توجهي ارزانتر هستند؛ با اين حال، صداهاي ويونت صوت طبيعيتري ارائه خواهند داد.
- چهارشنبه ۱۵ فروردین ۹۷ ۱۰:۲۵
- ۲۴۳ بازديد
- ۰ نظر