![A continuació, es mostra el funcionament de la secció en directe d'Android 10 - Notícies A continuació, es mostra el funcionament de la secció en directe d'Android 10 - Notícies](https://a.23rdpta.org/news/heres-how-android-10s-live-caption-actually-works.jpg)
Content
Llegiu en directe és una de les funcions més interessants d'Android encara que utilitza l'aprenentatge automàtic del dispositiu per generar subtítols per a vídeos locals i clips web.
Google ha publicat una publicació en un bloc on es detalla exactament com funciona aquesta funesta, i en realitat es compon de tres models d'aprenentatge de màquines per dispositius, per a començar.
Hi ha un model de transducció de seqüència de xarxa neuronal recurrent (RNN-T) per al propi reconeixement de la veu, però Google també utilitza una xarxa neuronal recurrent per predir la puntuació.
El tercer model d'aprenentatge de màquines en dispositiu és una xarxa neuronal convolutiva (CNN) per a esdeveniments sonors, com ara picotejar ocells, aplaudir de gent i música. Google diu que aquest tercer model d'aprenentatge automàtic deriva del seu treball a l'aplicació d'accessibilitat Live Transcribe, que és capaç de transcriure esdeveniments de veu i de so.
Reducció de l'impacte de la llegenda en directe
La companyia assegura que ha pres diverses mesures per reduir el consum de bateries i les exigències de rendiment de Live Caption.Per un, el motor de reconeixement automàtic complet de la veu (ASR) només funciona quan es detecta la parla en realitat, en contraposició a la seva execució constant en segon pla.
“Per exemple, quan es detecta música i la veu no és present al flux d’àudio, l’etiqueta apareixerà a la pantalla i es descarregarà el model ASR. El model ASR només es torna a carregar a la memòria quan la parla torna a estar present al flux d’àudio ”, explica Google a la seva publicació al bloc.
Google també ha utilitzat tècniques com la poda de connexions neuronals (reduir la mida del model de veu), reduir el consum d’energia en un 50% i permetre que Live Caption s’executi contínuament.
Google explica que els resultats del reconeixement de la veu s’actualitzen unes quantes vegades cada segon a mesura que es forma el títol, però la predicció de puntuació és diferent. El gegant de la cerca diu que ofereix predicció de puntuació "a la cua del text de l'oració més recent reconeguda" per tal de reduir les demandes de recursos.
Llegiu en directe ja està disponible a la sèrie Google Pixel 4 i Google diu que estarà disponible “aviat” a la sèrie Pixel 3 i altres dispositius. La companyia diu que també treballa en suport per a altres idiomes i millor suport per a contingut multilingüe.