PGGM lance le résumé vocal automatique

Le point essentiel pour un bon historique client est de correctement sauvegarder le résumé de la conversation dans le CRM : c’est primordial pour assurer un bon suivi. Quelle est la raison de l’appel, quelle est la nature de la conversation et quels rendez-vous de suivi sont convenus ? Le résumé vocal automatique permettra de faire gagner beaucoup de temps au le conseiller qui n’aura plus à le taper après l’appel. Grâce à l’utilisation de la technologie vocale et de l’intelligence artificielle, le résumé de l’appel sera écrit automatiquement et intégré dans la fiche client du CRM.

Chez Telecats, nous utilisons la reconnaissance vocale pour convertir le résumé oral du conseiller en résumé texte. Ce résumé écrit est facile à lire et est automatiquement enregistré dans le CRM.

Frank Rademakers (Manager Customer contact & Support, PGGM)”Il y a environ deux ans, le Centre de relation client de PGGM a eu l’idée d’utiliser la technologie vocale pour rédiger le résumé des conversations dans le CRM. L’objectif était de réduire le temps de traitement du conseiller et d’uniformiser la manière de consigner les appels. 

Il nous est apparu évident chez PGGM de mener ce projet avec notre partenaire en technologie vocale Telecats, en collaboration avec notre propre Département Innovation. L’année dernière, nous avons mis en place une équipe multidisciplinaire pour cela, dans laquelle tous les rôles clés étaient représentés, avec Telecats en tête. Au début de cette année, la solution était complètement opérationnelle d’un point de vue technique mais il y avait encore de la place pour améliorer le modèle linguistique. Gérer les terminologies et le jargon (dans le secteur des pensions) s’est avéré être un véritable défi ! Nous sommes désormais pleinement engagés dans le déploiement de cette nouvelle méthodologie de travail avec un modèle de langage spécialement entrainé pour PGGM. 

Avec le recul, ce que je retiens c’est un processus d’innovation passionnant et enrichissant, avec des heurts et quelques écueils, mais c’est surtout le résultat, qui est très bon. Nous avons été pleinement satisfaits lorsque nous avons vu les premiers résumés de conversation compréhensibles et faciles à lire dans notre CRM. Enfin, c’est plutôt cool d’être le tout le premier client pour le lancement d’une toute nouvelle application et d’une innovation dans la relation client” .

Comment cela fonctionne ?

Alors que la reconnaissance vocale est de plus en plus performante grâce à une puissance de calcul accrue, au volume de données disponibles et à des algorithmes intelligents, le prochain défi consiste à comprendre ce qui est dit. Mais est-ce possible ? Les algorithmes actuels sont-ils capables d’interpréter la manière dont s’exprime l’être humain (et comprendre ce que l’on veut dire, surtout l’implicite) ? C’est le grand défi sur lequel Telecats travaille en collaboration avec de grandes institutions, telle que la célèbre Université de Twente.

Les technologies vocales ont grandement progressé ces dernières années avec l’utilisation du Deep Learning et de l’Intelligence Artificielle. Nous constatons que la reconnaissance vocale reconnaît la parole presque aussi bien que les humains dans des conditions optimales (WER* 5 à 10%). Nous définissons comme conditions optimales l’enregistrement d’une lecture à haute voix en studio (haute qualité audio). Les conditions sont tout autre lors d’un contact avec un client. La plupart du temps il s’agit d’une conversation entre deux personnes au téléphone (avec une qualité audio inférieure à 8kHz), les interlocuteurs pensent en même temps qu’ils parlent et les phrases prononcées n’ont pas toujours une structure logique. Néanmoins, nous sommes capables de bien traiter ces conversations avec la reconnaissance vocale (WER* 20 à 40%).

Le Word Error Rate (WER*), ou taux d’erreur de mots, est une unité de mesure courante qui sert à mesurer les performances de reconnaissance vocale. Le WER compte le nombre de mots incorrects identifiés lors de la reconnaissance et divise la somme par le nombre total de mots spécifiés dans la transcription étiquetée manuellement pour calculer le taux d’erreur en pourcentage.

La reconnaissance vocale génère généralement trois types d’erreurs :

  • Insertions : mots ajoutés de manière incorrecte dans la transcription
  • Suppressions : mots manquants dans la transcription
  • Substitutions : mots remplacés par d’autres mots dans la transcription

Parce que les ordinateurs deviennent toujours plus intelligents tous les deux ans et que nous, en tant qu’humains, ne pouvons pas suivre ce rythme, une question légitime se pose : devenons-nous obsolètes ? Cependant nos conseillers sont flexibles et créatifs, ont de l’empathie et sont donc les plus à même de mener des conversations avec des personnes. Nous pensons donc que l’intelligence artificielle ne nous remplacera pas, mais au contraire nous aidera. Le résumé vocal automatique est un très bon exemple de cette complémentarité. Il se compose de trois parties :

L’Enregistrement

L’enregistrement des appels est un outil très important au sein des centres de relation client pour améliorer les processus et augmenter la satisfaction des clients. Il est utilisé, entre autres, pour l’analyse, l’assurance qualité, la conformité, l’enregistrement des accords clients et le coaching des conseillers. L’enregistreur d’appels de Telecats enregistre les conversations en stéréo, le conseiller et le client ayant chacun leur propre canal d’enregistrement. Les enregistrements sont d’abord sauvegardés avec un son de haute qualité, ce qui permet un traitement performant et précis pour passer de la parole au texte. Après le traitement, les enregistrements peuvent toujours être compressés pour le stockage.

La Transcription (Speech-To-Text / STT)

Afin de convertir les conversations orales enregistrées en texte dans une bonne qualité, des modèles de langage et des éléments de contexte sont nécessaires. La reconnaissance vocale de Telecats prend en charge différentes langues et peut utiliser des modèles linguistiques spécifiques au secteur d’activité ou à l’organisation du client. De plus, il est possible d’entraîner la reconnaissance vocale grâce à des enregistrements transcrits manuellement pour affiner la compréhension du langage utilisé par les clients et les conseillers. Les spécificités linguistiques (dialectes et accents) sont aussi incluses dans le modèle acoustique du module de reconnaissance vocale : nous avons plusieurs « dictionnaires de prononciation » pour traiter différents dialectes et accents. Si les accents parlés s’écartent trop des énoncés que nous avons modélisés, nous ajustons le modèle acoustique en conséquence. Cela garantit la qualité de la reconnaissance vocale et des transcriptions générées par les solutions vocales Telecats.

Le WER sur de l’audio issu de conversations téléphoniques varie entre 20 et 40%, en fonction du contexte et de la qualité sonore. Lorsque vous essayez ensuite d’utiliser un algorithme pour résumer automatiquement la conversation entièrement transcrite, le résultat sera moins optimal.

Chez Telecats, nous utilisons la reconnaissance vocale pour convertir le résumé oral en texte et obtenons un WER inférieur à 20%, ce qui donne une bonne qualité de résumé.

Le résumé vocal automatique

Avec la solution de résumé vocal automatique, le conseiller résume la discussion à l’oral avec le client à la fin de l’appel, seule cette partie de la conversation est enregistrée et transcrite dans le CRM. Le résumé démarre avec une API ou un mot clé défini à l’avance qui déclenche l’enregistrement. Le succès de ce résumé vocal (dicté) dépend aussi de consignes claires et d’une formation adéquate des conseillers. Mais résumer les conversations est souvent déjà bien intégré dans la façon de travailler des conseillers.

Partage

Contactez nous

Pays Bas

France

Téléphone

Tele2 is currently experiencing technical problems.
For other support questions please call: +31 (0) 20 - 771 15 16

Ou laissez-nous un message