18 de gener de 2023
Google Speech to Text: Què significa per a les empreses?
Tant les tecnologies de reconeixement com de síntesi de veu, els processos darrere de sistemes intel·ligents com els assistents virtuals, han experimentat un enorme desenvolupament durant els últims anys. Una evolució que fa possible que aquestes eines tinguin la capacitat de comprendre els seus interlocutors i de respondre de manera similar a les persones.
Què és Speech Services by Google?
Google Text-to-Speech és una aplicació que permet que altres aplicacions dels terminals Android «parlin», dictant tot el text que aparegui en pantalla.
Google està disposat a compartir la seva tecnologia. Si el mes passat obria les portes als desenvolupadors del seu motor de síntesi de veu text-to-speech, que utilitzen tant Assistant com l'aplicació de Maps, ha començat abril anunciant una important millora en els serveis de reconeixement del llenguatge speech-to-text que ofereix a través del núvol.
La renovada API presenta un major rendiment i una reducció dels errors al voltant del 54 %, encara que en alguns casos el percentatge pot ser encara més gran. Gran part de l'actualització es materialitza en una nova funcionalitat que permet als desenvolupadors triar entre 4 diferents models de machine learning segons l'àmbit d'aplicació. Així, poden seleccionar un o altre en funció de si l'eina està destinada al reconeixement de comandes de veu curtes, converses telefòniques i l'àudio d'un vídeo, encara que també n'hi ha un d'estàndard que abasta tots aquests camps.
D'altra banda, Google ha actualitzat el servei amb un nou sistema de puntuació que redueix els freqüents errors que cometia en les transcripcions i del qual es podrà beneficiar tot el programari que transformi les ordres en text, com les eines que permeten a l'usuari redactar un correu electrònic de viva veu.
De la mà del processament al núvol i la intel·ligència artificial, els de Mountain View contribueixen amb aquestes actualitzacions al desenvolupament d'aplicacions de reconeixement de veu i assistents virtuals més eficients i amb menys errors. La seva evolució, sens dubte, es veurà reflectida en la penetració d'aquest tipus de tecnologies en l'entorn corporatiu, on la seva presència comença a consolidar-se.
Els assistents virtuals aterren a les empreses
No és gens casualitat que Amazon hagi anunciat els seus plans per integrar el seu assistent virtual Alexa en el programari destinat a l'empresa, Axios. Es tracta d'una estratègia per accelerar la introducció d'aquests majordoms virtuals en un terreny de joc on fa temps que han fet els primers passos. Com assenyalen des d'Axios, companyies pioneres com Concur, Salesforce, WeWork i CapitalOne ja han incorporat l'assistent de Jeff Bezos a les seves plataformes de gestió corporativa.
La millora de les tecnologies de speech-to-text permetrà a aquests sistemes intel·ligents adaptar-se a expressions molt diferents de les emprades a la llar o en la vida personal dels usuaris. “El tipus de llenguatge que fem servir a les oficines és moltes vegades radicalment diferent de les converses que tenim a casa”, ha explicat el CTO d'Amazon Werner Vogels.
De totes maneres, els de Bezos ja ofereixen una API oberta perquè els desenvolupadors puguin integrar una Alexa for business en diferents dispositius i dissenyar les seves pròpies funcionalitats relacionades amb la gestió de clients, la comunicació amb els empleats o amb la celebració de conferències. Una caixa d'eines personalitzada que, a més, es pot adaptar a l'idioma de Cortana, l'assistent virtual de Microsoft.
Però els d'Amazon no són els únics en posar l'ull al terreny corporatiu. Altres assistents virtuals com Spark Assistant (de Cisco), la pròpia Cortana, Eva (de Voicera), Dragon Assistant (de Nuance) i l'IBM Watson Assistant també tenen la seva pròpia versió adaptada a l'empresa. Totes elles estan enfocades, principalment, a l'organització de reunions i la gestió dels fluxos de treball, tot amb l'objectiu d'augmentar la productivitat i dinamitzar els processos organitzatius.
Tanmateix, gràcies a les APIs que obren les portes d'aquests sistemes de reconeixement de veu speech-to-text, les possibilitats per als desenvolupadors van encara més enllà. Des de crear aplicacions per redactar correus electrònics a bots capaços d'enviar missatges o preparar reunions via plataformes com Slack.
Algunes empreses ja empren aquest tipus d'eines de reconeixement i síntesi de veu per executar tasques relacionades amb l'anàlisi de sistemes o l'atenció al client. Però les APIs com la de Google permetria afegir a la llista tasques com la gestió de les solucions CRM per part dels usuaris. Un assistent virtual podria, gràcies a aquestes solucions, actualitzar la plataforma si se li donés l'ordre o bé perquè captés aquesta necessitat a partir d'una conversa telefònica.
D'altaveus a wearables
Si bé els canals més utilitzats per interactuar amb aquests majordoms virtuals són els altaveus clàssics, com el Home de Google o l'Echo d'Amazon, o el programari que els treballadors tenen instal·lat en els seus propis dispositius, també el ventall d'opcions s'amplia en aquest sentit. La pròxima parada, per a molts, seran els wearables. Amb un micròfon incorporat, aquests dispositius permeten utilitzar comandes de veu per realitzar trucades o dictar missatges, com si l'usuari portés un assistent virtual en alguna part del seu cos.
Segons estimacions de la firma d'investigacions de mercat Counterpoint, gairebé un terç dels wearables que van sortir al mercat l'any passat basaven el seu funcionament en la intel·ligència artificial i gairebé la meitat d'ells eren hearables o altaveus intel·ligents, molts d'ells amb assistent incorporat. És el cas dels populars AirPods d'Apple, els Dash de l'alemanya Bragi i els Onvocal OV (tots dos amb Alexa), els Pixel Buds del gegant del cercador (Google Assistant) i l'Xperia Ear de Sony.
Conclusió
Les empreses que vulguin aprofitar els serveis de reconeixement i síntesi de veu disponibles ja al núvol hauran, no obstant això, tenir en compte factors com el problema que es plantegen resoldre i el que aportarà a l'ecosistema digital de l'empresa.
Una de les decisions més importants serà triar el proveïdor que més els convé, ja que des de la plataforma de Google a Amazon, cadascun té les seves fortaleses i debilitats. Els de Mountain View, no obstant això, semblen disposats a liderar la implantació d'aquesta tecnologia en tots els àmbits de la vida.
Share
Potser et pot interessar
Què és Salesforce Commerce Cloud?
Salesforce Commerce Cloud B2B és una plataforma de comerç electrònic al núvol que ofereix experiències de compra intel·ligent a través de diferents canals.
Es tracta de l'experiència ecommerce ideal basada en l'autoservei en línia amb totes les funcionalitats B2B que es necessiten.
Què és Pardot, és la millor solució per a l'Automatització de Màrqueting B2B?
Pardot és la solució de Salesforce per a la gestió de leads i automatització de màrqueting B2B. Ofereix grans avantatges, ja que permet que els equips de màrqueting i vendes configurin, implementin i gestionin campanyes de màrqueting en línia per augmentar el ROI de les campanyes i millorar la seva eficiència.
¿Formació Salesforce? Dissenya't el teu propi curs
Una potent eina per gestionar la relació amb els clients, aconseguir que les oportunitats es converteixin en vendes i millorar la productivitat. Salesforce és un CRM al núvol que multitud d'empreses ja utilitzen per impulsar el seu negoci. No obstant això, l'ampli ventall de funcionalitats que ofereix la plataforma fa que es demandin cada vegada més professionals que la coneguin en profunditat per treure-li el màxim partit.