سرویس متن به گفتار ابری گوگل
توسعهدهندگان از این پس میتوانند از همان فناوری تبدیل متن به گفتاری که در سرویسهای گوگل بهکار رفته است، در اپلیکیشنهای خود استفاده کنند.
گوگل اخیرا در وبلاگ خود اعلام کرد که سرویس متن به گفتار ابری خود را در دسترس جامعهی توسعهدهندگان قرار میدهد، این سرویس به توسعهدهندگان امکان میدهد تا با استفاده از الگوی ویونت (Wavenet) و زیرساخت شبکهی عصبی غول جستجو، صدای طبیعی متن به گفتار را در اپلیکیشنهای خود بهکار بگیرند. فناوری ویونت همان فناوری بهکار رفته در تبدیل متن به گفتار برخی از سرویسهای محبوب گوگل از جمله گوگل اسیستنت، مپس و جستجو است. گوگل در وبلاگ خود اشاره کرد که جدیدترین سرویس آن میتواند در سامانههای پاسخ صوتی مراکز تماس بهکار رود، امکان پاسخگویی را در اختیار دستگاههای اینترنت اشیا قرار دهد و بهصورت خودکار محتوای متنی مقالهها و کتابها را نیز به قالبهای صوتی نظیر پادکستها یا کتابهای صوتی تبدیل کند.
توسعهدهندگان میتوانند از بین ۳۲ صدای مختلف از ۱۲ زبان از جمله انگلیسی، پرتغالی، ژاپنی، فرانسوی، اسپانیایی و سوئدی دست به انتخاب بزنند؛ با این حال، گوگل میگوید که در آیندهی نزدیک صداهای بیشتری را به این سرویس افزوده خواهد کرد. علاوهبر این، افراد میتوانند حجم صدا، نرخ گفتار و کیفیت صداها را نیز تغییر دهند. همچنین توسعهدهنگان میتوانند از برچسبهای نشانهگذاری متن به گفتار (SSML) بهمنظور افزودن مکث، دستورالعملهای تلفظ و تاریخ به گفتار بهره بگیرند.
گوگل در پست وبلاگ خود جزئیات بیشتری دربارهی بهبودهای صورتگرفته در الگوی ویونت ارائه داد، این فناوری در ابتدا در سال ۲۰۱۶ عرضه شد و در آن زمان از یک شبکهی عصبی کانولوشن که با بهرهگیری از نمونههای گفتاری مختلفی آموزش داده شده بود، استفاده میکرد؛ با این حال، الگوی یادشده بلافاصله با محصولات گوگل ادغام نشد؛ زیرا هنوز برای استفادهی تجاری از آمادگی لازم برخوردار نبود. دو سال پس از عرضهی این فناوری، اکنون نسخههای بهروزشده از الگوی ویونت امکان ساخت بسیار سریعتر صدا را فراهم میکنند. ویونت در سال ۲۰۱۶ در یک ثانیه تنها قادر به تولید ۰.۰۲ ثانیه صدا بود؛ در حالی که الگوی بهروزشده میتواند در یک ثانیه، ۲۰ ثانیه صدا تولید کند. علاوه بر این، الگوی بهروزشده در مقایسه با الگوی اولیه، وضوح و دقت بهتری ارائه میدهد که نتیجهی آن تولید صدای باکیفیتتر و شبیهتر به صدای انسان است.
توسعهدهندگانی که از مزیت سرویس متن به گفتار ابری بهره خواهند گرفت، میتوانند از بین صداهای بیسیک و ویونت دست به انتخاب بزنند و براساس تعداد کاراکترهایی که ماهانه برای ساخت صدا به این سرویس ارسال میکنند، ملزم به پرداخت هزینه خواهند شد. صداهای بیسیک به نحو قابل توجهی ارزانتر هستند؛ با این حال، صداهای ویونت صوت طبیعیتری ارائه خواهند داد.
پاسخ دهید
برای ارسال دیدکاه باید وارد شوید .. برای ورود اینجا را کلیک کنید