Seidor
mujer hablando

21 de febrer de 2023

Què és la Voice User Interface?

Sense les interfícies d'usuari, o UI, els éssers humans no podríem relacionar-nos amb les màquines. Per tant, no podríem utilitzar cap tipus de dispositiu electrònic. Aquest concepte abasta des dels instruments més quotidians, com els teclats i les pantalles dels ordinadors que utilitzem cada dia, fins a tecnologies que són realment complexes, com interfícies d'usuari basades en el moviment o en la veu.

Els constants avenços tecnològics han permès avançar en aquest sentit, cosa que ha fet que els millors i més eficients acabin imposant-se als altres.

Exemples d'interfície de veu

En l'àmbit de les aplicacions mòbils, les interfícies fins al moment s'han basat en la interacció amb les pantalles amb les nostres mans o, com a molt, amb gestos. Però amb la millora de les tecnologies de Speech To Text i del Processament de Llenguatge Natural (PLN) han fet possible que les interfícies conversacionals siguin ja una realitat.

El seu ús s'estén cada vegada més entre els consumidors amb dispositius com és possible per desenvolupar tasques senzilles a les nostres cases, amb gadgets com Alexa, Cortana o l'assistent de Google, que són capaços de desenvolupar operacions més o menys senzilles.

Segons les dades del Smart Audio Report, els usuaris van utilitzar aquesta tecnologia per a tasques molt diverses. El 90 % dels usuaris l'utilitzen per escoltar música, el 87 % per formular preguntes sobre informació general i el 77 % per divertir-se amb diferents gadgets. Altres tasques són controlar l'àudio, posar alarmes o controlar dispositius de la llar, entre altres.

Però aquesta tecnologia no és útil només en la nostra vida personal, sinó que les empreses també poden beneficiar-se dels seus avantatges. De tal manera és possible crear una VUI perquè els empleats d'una companyia puguin realitzar processos concrets relacionats amb les seves tasques. Per exemple, omplir un formulari només amb la veu, sense necessitat de tocar la pantalla.

IA, reconeixement de veu i altres termes bàsics a conèixer

VUI: La coneguda com VUI (Voice User Interface o interfície d'usuari de veu) és una tecnologia de reconeixement de veu. Amb ella, els usuaris poden interactuar amb un dispositiu utilitzant la veu com a mitjà. Una VUI accepta l'entrada de l'usuari a través de la veu, la processa i després proporciona una sortida basada en la veu, que pot anar acompanyada de text, gràfics o vídeo a la pantalla.

Un dels grans avantatges de la tecnologia VUI és que permet als usuaris un control complet de la tecnologia mans lliures. Per fer-ho possible s'utilitza una combinació de tecnologies d'Intel·ligència Artificial (IA), inclòs el reconeixement de veu automàtic, el reconeixement d'entitat de nom i la síntesi de veu, entre altres.

Per la seva pròpia naturalesa, les VUI poden estar contingudes en dispositius o dins d'aplicacions. La infraestructura de back-end, incloses les tecnologies d'intel·ligència artificial utilitzades per crear els components de veu del VUI, sovint s'emmagatzemen en un núvol públic o privat on es processa la veu de l'usuari. Al núvol, els components d'IA determinen la intenció de l'usuari i retornen una resposta determinada al dispositiu o aplicació on l'usuari està interactuant amb la VUI.

dispositivo llamado alexa en color blanco

PLN: Aquestes sigles fan referència al Processament de Llenguatge Natural (PLN), la denominació que rep un subcamp de la informàtica i la intel·ligència artificial relacionada amb les interaccions entre els ordinadors i els llenguatges humans. S'utilitza per aplicar algorismes d'aprenentatge automàtic al text i a la parla. Entre altres aplicacions, es poden crear sistemes com reconeixement de veu, resum de documents, traducció automàtica, detecció de correu no desitjat, reconeixement d'entitats amb nom, resposta a preguntes, autocompletat, escriptura predictiva, entre d'altres.

Speech To Text: és el procés pel qual les paraules parlades es converteixen en textos escrits. Aquest procés també se sol anomenar reconeixement de veu. Encara que aquests termes són gairebé sinònims, el reconeixement de veu de vegades s'utilitza per descriure el procés més ampli d'extracció de significat de la parla, és a dir, la comprensió de la parla.

Algunes aplicacions tecnològiques del PLN

Les dades demostren que la tecnologia basada en el PLN està en auge i que compta amb molt bones expectatives de creixement, amb una especial rellevància en l'àmbit de l'empresa. En aquest sentit, l'informe Tendències principals en el cicle Hype de Gartner per a la intel·ligència artificial, assenyala que “els xatbots i els assistents virtuals han assolit el màxim interès en l'empresa com els usos més comuns per a la IA. Però per millorar l'experiència del client i reduir els costos, els líders d'aplicacions han de triar la plataforma de conversa adequada com la tecnologia habilitadora per desenvolupar xatbots i VA”.

A més, segons Markets and Markets, la mida del mercat global d'IA conversacional augmentarà de 4,2 mil milions de dòlars el 2019 a 15,7 mil milions de dòlars el 2024, la qual cosa suposa una taxa de creixement anual composta del 30,2%.

Relacionat: Millors xatbots amb intel·ligència artificial per parlar

En aquest context, existeixen alguns projectes que resulten interessants. Com a exemple, podem assenyalar dos d'ells: Dialogflow i Wit.ai

Dialogflow és un producte impulsat per Google. El seu ús permet als desenvolupadors crear interfícies de conversa de veu i basades en text per respondre a les consultes dels clients en diferents idiomes. Es tracta d'una plataforma de processament de llenguatge natural que posseeix una àmplia varietat d'aplicacions i amb la qual es poden crear interessants experiències de conversa per als clients d'una empresa.

chat con Google Assistant

Wit.ai, un marc de chatbot de codi obert que va començar com una iniciativa de Y Combinator, és totalment capaç d'analitzar expressions d'usuari matisades i retornar respostes valuoses, coherents i ben informades. Facebook va adquirir la companyia el 2015, però, malgrat tot, Wit.ai continua sent un projecte de codi obert, per la qual cosa la comunitat es pot beneficiar de les aplicacions obertes. D'aquesta manera, els desenvolupadors poden bifurcar qualsevol aplicació i no necessiten començar des de zero en construir el seu bot.

Interfícies de veu VUI: una aposta de futur

En conclusió, sembla clar que aquest tipus de tecnologies estan cridades a complir un paper de màxima importància, per la qual cosa les empreses han d'estar preparades per assumir el repte que, sens dubte, va a suposar. Posar-se mans a l'obra com més aviat millor pot, en definitiva, marcar la diferència en un futur no massa llunyà.

Potser et pot interessar

02 de febrer de 2023

Datorama: Què és? Per què utilitzar-lo?

Avui dia comptem amb multitud d'eines en forma de recursos digitals que ens concedeixen dades de tota mena. No obstant això, la informació proporcionada és tan elevada que pot sobrecarregar-nos i fer que gastem un temps privilegiat en ordenar i reportar.

SEIDOR
02 de març de 2023

Què és Salesforce CPQ? Característiques i avantatges.

Salesforce CPQ és una eina de vendes dins de Salesforce CRM que permet a les empreses i els seus venedors generar pressupostos de productes o serveis complexos i configurables de forma ràpida i precisa.

SEIDOR
07 de febrer de 2023

Què és un Chatbot i 10 Exemples d'ús per millorar el teu negoci

Els clients ja no han de comunicar-se amb una companyia exclusivament a través d'intermediaris humans: els xatbots, interfícies conversacionals que processen el llenguatge natural, poden respondre a les seves demandes automàticament.

SEIDOR