سرويس متن به گفتار ابري گوگل در دسترس توسعه‌دهندگان قرار گرفت

توسعه‌دهندگان از اين پس مي‌توانند از همان فناوري تبديل متن به گفتاري كه در سرويس‌هاي گوگل به‌كار رفته است، در اپليكيشن‌هاي خود استفاده كنند.

گوگل اخيرا در وبلاگ خود اعلام كرد كه سرويس متن به گفتار ابري خود را در دسترس جامعه‌ي توسعه‌دهندگان قرار مي‌دهد، اين سرويس به توسعه‌دهندگان امكان مي‌دهد تا با استفاده از الگوي ويونت (Wavenet) و زيرساخت شبكه‌ي عصبي غول جستجو، صداي طبيعي متن به گفتار را در اپليكيشن‌هاي خود به‌كار بگيرند. فناوري ويونت همان فناوري به‌كار رفته در تبديل متن به گفتار برخي از سرويس‌هاي محبوب گوگل از جمله گوگل اسيستنت، مپس و جستجو است. گوگل در وبلاگ خود اشاره كرد كه جديدترين سرويس آن مي‌تواند در سامانه‌هاي پاسخ صوتي مراكز تماس به‌كار رود، امكان پاسخگويي را در اختيار دستگاه‌هاي اينترنت اشيا قرار دهد و به‌صورت خودكار محتواي متني مقاله‌ها و كتاب‌ها را نيز به قالب‌هاي صوتي نظير پادكست‌ها يا كتاب‌هاي صوتي تبديل كند.

توسعه‌دهندگان مي‌توانند از بين ۳۲ صداي مختلف از ۱۲ زبان از جمله انگليسي، پرتغالي، ژاپني، فرانسوي، اسپانيايي و سوئدي دست به انتخاب بزنند؛ با اين حال، گوگل مي‌گويد كه در آينده‌ي نزديك صداهاي بيشتري را به اين سرويس افزوده خواهد كرد. علاوه‌بر اين، افراد مي‌توانند حجم صدا، نرخ گفتار و كيفيت صداها را نيز تغيير دهند. همچنين توسعه‌دهنگان مي‌توانند از برچسب‌هاي نشانه‌گذاري متن به گفتار (SSML) به‌منظور افزودن مكث، دستورالعمل‌هاي تلفظ و تاريخ به گفتار بهره بگيرند.

گوگل در پست وبلاگ خود جزئيات بيشتري درباره‌ي بهبودهاي صورت‌گرفته در الگوي ويونت ارائه داد، اين فناوري در ابتدا در سال ۲۰۱۶ عرضه شد و در آن زمان از يك شبكه‌ي عصبي كانولوشن كه با بهره‌گيري از نمونه‌هاي گفتاري مختلفي آموزش داده شده بود، استفاده مي‌كرد؛ با اين حال، الگوي يادشده بلافاصله با محصولات گوگل ادغام نشد؛ زيرا هنوز براي استفاده‌ي تجاري از آمادگي لازم برخوردار نبود. دو سال پس از عرضه‌ي اين فناوري، اكنون نسخه‌هاي به‌روزشده از الگوي ويونت امكان ساخت بسيار سريع‌تر صدا را فراهم مي‌كنند. ويونت در سال ۲۰۱۶ در يك ثانيه تنها قادر به توليد ۰.۰۲ ثانيه صدا بود؛ در حالي كه الگوي به‌روزشده مي‌تواند در يك ثانيه، ۲۰ ثانيه صدا توليد كند. علاوه بر اين، الگوي به‌روزشده در مقايسه با الگوي اوليه، وضوح و دقت بهتري ارائه مي‌دهد كه نتيجه‌ي آن توليد صداي باكيفيت‌تر و شبيه‌تر به صداي انسان است.

توسعه‌دهندگاني كه از مزيت سرويس متن به گفتار ابري بهره خواهند گرفت، مي‌توانند از بين صداهاي بيسيك و ويونت دست به انتخاب بزنند و براساس تعداد كاراكترهايي كه ماهانه براي ساخت صدا به اين سرويس ارسال مي‌كنند، ملزم به پرداخت هزينه خواهند شد. صداهاي بيسيك به نحو قابل توجهي ارزان‌تر هستند؛ با اين حال، صداهاي ويونت صوت طبيعي‌تري ارائه خواهند داد.

برچسب ها: google, cloud,

ساغر هموله
چهارشنبه ۱۵ فروردین ۹۷ ۱۰:۲۵
۲۴۴ بازديد
۰ نظر

سرويس متن به گفتار ابري گوگل در دسترس توسعه‌دهندگان قرار گرفت

برترين خبرهاي فناوري