Les réseaux d’apprentissage profond préfèrent la voix humaine – tout comme nous – Technoguide

La révolution numérique est construite sur une base de 1 et de 0 invisibles appelés bits. Au fur et à mesure que des décennies passent et que de plus en plus d’informations et de connaissances du monde se transforment en flux de 1 et de 0, la notion selon laquelle les ordinateurs préfèrent «parler» en nombres binaires est rarement remise en question. Selon une nouvelle étude de Columbia Engineering, cela pourrait être sur le point de changer.

Une nouvelle étude du professeur de génie mécanique Hod Lipson et de son doctorant Boyuan Chen prouve que les systèmes d’intelligence artificielle pourraient en fait atteindre des niveaux de performance plus élevés s’ils sont programmés avec des fichiers sonores de langage humain plutôt qu’avec des étiquettes de données numériques. Les chercheurs ont découvert que dans une comparaison côte à côte, un réseau de neurones dont les «étiquettes de formation» consistaient en fichiers sonores atteignait des niveaux de performance plus élevés pour identifier les objets dans les images, par rapport à un autre réseau qui avait été programmé de manière plus traditionnelle, en utilisant des entrées binaires simples.

«Pour comprendre pourquoi cette découverte est significative», ont déclaré Lipson, James et Sally Scapa Professor of Innovation et membre du Columbia’s Data Science Institute, «Il est utile de comprendre comment les réseaux de neurones sont généralement programmés et pourquoi utiliser le son de la voix humaine. est une expérience radicale. “

Lorsqu’il est utilisé pour transmettre des informations, le langage des nombres binaires est compact et précis. En revanche, la langue humaine parlée est plus tonale et analogique et, lorsqu’elle est capturée dans un fichier numérique, non binaire. Parce que les nombres sont un moyen si efficace de numériser des données, les programmeurs s’écartent rarement d’un processus axé sur les nombres lorsqu’ils développent un réseau neuronal.

Lipson, un robotique très apprécié, et Chen, un ancien pianiste de concert, avaient le pressentiment que les réseaux de neurones pourraient ne pas atteindre leur plein potentiel. Ils ont émis l’hypothèse que les réseaux de neurones pourraient apprendre plus vite et mieux si les systèmes étaient «entraînés» à reconnaître les animaux, par exemple, en utilisant la puissance de l’un des sons les plus évolués au monde – la voix humaine prononçant des mots spécifiques.

L’un des exercices les plus courants que les chercheurs en IA utilisent pour tester les mérites d’une nouvelle technique d’apprentissage automatique consiste à entraîner un réseau de neurones à reconnaître des objets et des animaux spécifiques dans une collection de différentes photographies. Pour vérifier leur hypothèse, Chen, Lipson et deux étudiants, Yu Li et Sunand Raghupathi, ont mis en place une expérience contrôlée. Ils ont créé deux nouveaux réseaux de neurones dans le but de les entraîner tous les deux à reconnaître 10 types d’objets différents dans une collection de 50 000 photographies appelées «images d’entraînement».

Un système d’IA a été formé de manière traditionnelle, en téléchargeant une table de données géante contenant des milliers de lignes, chaque ligne correspondant à une seule photo d’entraînement. La première colonne était un fichier image contenant une photo d’un objet ou d’un animal particulier; les 10 colonnes suivantes correspondaient à 10 types d’objets possibles: chats, chiens, avions, etc. Un “1” dans n’importe quelle colonne indique la bonne réponse et neuf 0 indiquent les réponses incorrectes.

L’équipe a mis en place le réseau neuronal expérimental d’une manière radicalement nouvelle. Ils lui ont alimenté un tableau de données dont les lignes contenaient une photographie d’un animal ou d’un objet, et la deuxième colonne contenait un fichier audio d’une voix humaine enregistrée exprimant réellement le mot pour l’animal ou l’objet représenté à haute voix. Il n’y avait ni 1 ni 0.

Une fois les deux réseaux de neurones prêts, Chen, Li et Raghupathi ont formé les deux systèmes d’IA pendant un total de 15 heures, puis ont comparé leurs performances respectives. Lorsqu’on lui a présenté une image, le réseau d’origine a craché la réponse sous la forme d’une série de dix 1 et 0 – exactement comme il a été entraîné à le faire. Le réseau neuronal expérimental, cependant, a produit une voix clairement discernable essayant de “dire” ce qu’était l’objet dans l’image. Au départ, le son était juste une déformation. Parfois, c’était une confusion de plusieurs catégories, comme «rouage» pour chat et chien. Finalement, la voix était généralement correcte, bien qu’avec un ton étrange étranger (voir l’exemple sur le site Web).

Au début, les chercheurs ont été quelque peu surpris de découvrir que leur intuition était correcte – il n’y avait aucun avantage apparent aux 1 et aux 0. Le réseau neuronal de contrôle et le réseau expérimental se sont tous deux bien comportés, identifiant correctement l’animal ou l’objet représenté sur une photographie environ 92% du temps. Pour revérifier leurs résultats, les chercheurs ont recommencé l’expérience et ont obtenu le même résultat.

Ce qu’ils ont découvert ensuite était cependant encore plus surprenant. Pour explorer davantage les limites de l’utilisation du son comme outil de formation, les chercheurs ont mis en place une autre comparaison côte à côte, cette fois en utilisant beaucoup moins de photographies pendant le processus de formation. Alors que le premier cycle de formation impliquait d’alimenter les deux tables de données des réseaux de neurones contenant 50 000 images d’entraînement, les deux systèmes de la deuxième expérience ont reçu beaucoup moins de photographies d’entraînement, à peine 2 500 chacun.

Il est bien connu dans la recherche sur l’IA que la plupart des réseaux de neurones fonctionnent mal lorsque les données d’entraînement sont rares, et dans cette expérience, le réseau traditionnel formé numériquement n’a pas fait exception. Sa capacité à identifier les animaux individuels apparaissant sur les photographies a chuté à une précision d’environ 35%. En revanche, bien que le réseau de neurones expérimental ait également été formé avec le même nombre de photographies, ses performances l’ont fait deux fois aussi, ne chutant qu’à 70% de précision.

Intrigués, Lipson et ses étudiants ont décidé de tester leur méthode de formation à la voix sur un autre défi classique de reconnaissance d’image IA, celui de l’ambiguïté de l’image. Cette fois, ils ont mis en place une autre comparaison côte à côte, mais ont élevé le jeu d’un cran en utilisant des photographies plus difficiles qui étaient plus difficiles à «comprendre» pour un système d’IA. Par exemple, une photo de dressage représentait une image légèrement corrompue d’un chien ou d’un chat aux couleurs étranges. Lorsqu’ils ont comparé les résultats, même avec des photographies plus difficiles, le réseau de neurones à entraînement vocal était toujours correct environ 50% du temps, surpassant le réseau à entraînement numérique qui échouait, n’atteignant qu’une précision de 20%.

Ironiquement, le fait que leurs résultats allaient directement à l’encontre du statu quo est devenu un défi lorsque les chercheurs ont tenté pour la première fois de partager leurs découvertes avec leurs collègues en informatique. «Nos résultats vont directement à l’encontre du nombre d’experts formés à penser aux ordinateurs et aux nombres; il est communément admis que les entrées binaires sont un moyen plus efficace de transmettre des informations à une machine que des flux audio d’une« richesse »d’informations similaire», a expliqué Boyuan Chen, le chercheur principal de l’étude. «En fait, lorsque nous avons soumis cette recherche à une grande conférence sur l’IA, un critique anonyme a rejeté notre article simplement parce qu’il estimait que nos résultats étaient tout simplement« trop surprenants et peu intuitifs ».»

Cependant, lorsqu’elle est considérée dans le contexte plus large de la théorie de l’information, l’hypothèse de Lipson et Chen soutient en fait une hypothèse bien plus ancienne et historique proposée pour la première fois par le légendaire Claude Shannon, le père de la théorie de l’information. Selon la théorie de Shannon, les «signaux» de communication les plus efficaces sont caractérisés par un nombre optimal de bits, associé à une quantité optimale d’informations utiles, ou «surprise».

“Si vous pensez au fait que le langage humain a subi un processus d’optimisation pendant des dizaines de milliers d’années, alors il est parfaitement logique que nos paroles aient trouvé un bon équilibre entre le bruit et le signal;” Observa Lipson. “Par conséquent, vu à travers l’objectif de Shannon Entropy, il est logique qu’un réseau neuronal formé avec le langage humain surpasse un réseau neuronal formé par de simples 1 et 0.”

L’étude, qui sera présentée à la conférence International Conference on Learning Representations le 3 mai 2021, fait partie d’un effort plus large du Columbia Creative Machines Lab de Lipson pour créer des robots capables de comprendre le monde qui les entoure en interagissant avec d’autres machines et humains, plutôt qu’en étant programmé directement avec des données soigneusement prétraitées.

“Nous devrions penser à utiliser des moyens nouveaux et meilleurs pour former les systèmes d’IA au lieu de collecter des ensembles de données plus volumineux”, a déclaré Chen. “Si nous repensons la façon dont nous présentons les données de formation à la machine, nous pourrions faire un meilleur travail en tant qu’enseignants.”

L’un des résultats les plus rafraîchissants de la recherche informatique sur l’intelligence artificielle a été un effet secondaire inattendu: en sondant comment les machines apprennent, les chercheurs tombent parfois sur un nouvel aperçu des grands défis d’autres domaines bien établis.

“L’un des plus grands mystères de l’évolution humaine est de savoir comment nos ancêtres ont acquis le langage et comment les enfants apprennent à parler sans effort”, a déclaré Lipson. “Si les tout-petits humains apprennent mieux avec des instructions orales répétitives, alors peut-être que les systèmes d’IA le peuvent aussi.”

.

A propos Technoguide

Voir aussi

Le premier examen complet aux États-Unis révèle plus de décès que prévu en raison d’un produit chimique mortel – Technoguide

Des chercheurs et des médecins de l’Administration de la sécurité et de la santé au …

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Défiler vers le haut