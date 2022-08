print ( )

awk, dont le nom vient des trois créateurs, Alfred Aho, Peter Weinberger et Brian Kernighan, est un langage de traitement de fichiers plats par lignes, disponible sur la plupart des systèmes Unix et sous Windows avec MinGW, Cygwin ou Gawk. Il est principalement utilisé pour la manipulation de fichiers textes pour des opérations de recherches, de remplacement et de transformations complexes.Awk fut, en même temps que Sed, Bourne shell et tar, intégré dans la version 7 d'UNIX en 1979, par les laboratoires Bell. Il fut par la suite continuellement intégré aux distributions d'UNIX avec, en 1985, une mise à jour importante de Awk qui donna le New Awk (ou Nawk). Par la suite, de nouvelles versions dérivées de Nawk apparurent, telles que Mawk (Mike's Awk), Gawk (Gnu Awk) ainsi que des versions commerciales comme Motrice Kern Systems Awk (MKS Awk), Thompson Automation Awk (Tawk), Videosoft Awk (Vsawk), et d'autres versions plus spécifiques (Xgawk, Spawk, Jawk, Qtawk, Runawk).« J'ai effectué un certain nombre de tests, mais il est clair que d'autres tests sont nécessaires », écrit Kernighan dans le courriel, posté fin mai comme une sorte de pseudo-commit sur le repo onetrueawk par le mainteneur de longue date Arnold Robbins. « Une fois que j'aurai trouvé comment ... j'essaierai de soumettre une demande de modification. J'aimerais mieux comprendre git, mais malgré votre aide, je n'ai toujours pas une bonne compréhension, donc cela peut prendre un certain temps. »Kernighan est le « K » du langage spécialisé pour l'extraction et la manipulation du langage qui était essentiel aux fonctions de pipeline d'Unix et à l'interopérabilité entre les systèmes. Une fonction awk fonctionnelle (AWK est le langage, awk la commande pour l'invoquer) est essentielle à la fois pour la spécification standard UNIX et la certification IEEE POSIX pour l'interopérabilité. Comme dit precedemment, il existe d'innombrables variantes d'AWK y compris des dérivés modernes supportant Unicode - mais, parfois connu sous le nom de nawk, est une sorte de version canonique basée sur le livre de Kernighan de 1985et ses contributions ultérieures.Kernighan est aussi le « K » de « K&R C », le livre fondateur de 1978qu'il a coécrit avec Dennis Ritchie et qui reste gravé dans la mémoire des programmeurs, mentalement et sur papier. Les racines du C sont bien plus profondes. Kernighan enseignait le langage C aux employés des Bell Labs et a convaincu son créateur, Ritchie, de collaborer à la rédaction d'un livre pour diffuser les connaissances. Ce livre a donné naissance au « seul vrai style d'accolade », au débat sans fin qui l'accompagne et à la structure qui sous-tend tous les langages de programmation modernes.Kernighan a également donné son nom à Unix et a été le premier à démontrer l'exemple de code. Il s'est entretenu avec Richard Jensen d'Ars Technica pour une histoire du 50e anniversaire d'Unix.Le dépôt, où Kernighan est apparu à la fin du mois de mai, est un endroit relativement calme, avec 21 contributeurs, 46 utilisateurs de GitHub qui le surveillent, et des commits qui arrivent tous les quelques mois. Comme l'a noté The Register, la correction Unicode de Kernighan a été mise en lumière principalement parce qu'elle a été mentionnée dans une interview du professeur par la chaîne YouTube Computerphile.L'année dernière, Ben Hoyt, Ingénieur logiciel chez Canonical, a publié sur son blog les résultats d’une expérience qu’il a menée dans le but d’évaluer certains langages de programmation. L’ingénieur logiciel qui a précédemment occupé des postes de responsabilité dans le secteur du génie logiciel a sur un cas d’école comparer les performances des langages Python, Go, C++, C, AWK, Forth et Rust Grâce à un programme qui compte les fréquences des mots à partir de l'entrée standard, puis les affiche avec leurs fréquences, en commençant par les plus fréquents, Ben Hoyt est arrivé à la conclusion suivante : si vous avez juste besoin d'une solution rapide (ce qui est probable), Python et AWK sont recommandables, alors que Go et Rust sont recommandables pour les développeurs qui désirent avoir des solutions rapides et fiables.Pour Ben Hoyt, écrire un programme ou un algorithme qui compte les fréquences des mots à partir de l'entrée standard, puis les affiche avec leur fréquence, en commençant par les plus fréquents est une bonne question pour un candidat à un poste de programmeur lors d’un entretien d’embauche. Pour lui, contrairement aux questions sur les arbres binaires par exemple, un aspirant au poste de programmeur pourrait être appelé à écrire des scripts de ce type dans la vie réelle et cela permettra d’évaluer sa compréhension des notions d’entrée/sortie de fichiers, des tables de hachage, et l’utilisation de la fonction de tri.Ce qui peut être déconcertant de prime abord avec Awk, ce sont ses concepts. Alors que dans la plupart des langages scripts, on dispose de la possibilité de faire à peu près tout et n'importe quoi, Awk dispose d'une structure de programmation qui évite certains aléas.Pour illustrer ces propos, un concept purement awkien concerne l'ouverture des fichiers. En effet, bien qu'on puisse le faire, Awk se charge d'ouvrir les fichiers en lecture que vous mettez en paramètre, de les lire et de les fermer. D'autre part, ces fichiers ne sont pas altérés et en principe, on effectue une redirection en sortie des résultats affichés par les fonctions(ou). Au moins un fichier en entrée est nécessaire pour lancer un script Awk. La procédure générale d'exécution est la suivante : placer en entrée les fichiers sources (ou connecter une sortie de commande par un tube), analyser les données par un script Awk et récupérer les résultats en sortie.Ensuite, le langage Awk est conçu pour traiter les fichiers de données, et plus particulièrement les lignes de ces fichiers. Par défaut, Awk traite les lignes terminées par un retour-chariot et contenant des données séparées par un espace ou une tabulation. Ainsi, chaque ligne lue est traitée par le bloc principal d'instructions et un tableau interne contient les données séparées de la ligne en cours.Cependant, certains fichiers ont des données regroupées sur plusieurs lignes plutôt que sur une seule. Dans ce cas, on parle d'enregistrement et l'on peut indiquer à Awk de traiter plusieurs lignes à la fois, jusqu'à la fin d'un enregistrement, en modifiant les variables FS (séparateur de champs) et RS (séparateur d'enregistrements).« Cela a toujours été un embarras que AWK ne fonctionne qu'avec l'ASCII, ou peut-être des entrées 8 bits, mais il ne gère pas vraiment l'Unicode du tout », dit Kernighan à l'interviewer, le professeur David Brailsford. « Il y a quelques mois, j'ai passé du temps à travailler avec (rires) un programme incroyablement vieillissant. J'en suis arrivé à un point où il gère l'entrée et la sortie UTF-8, ce qui permet d'avoir des expressions régulières qui détectent les caractères japonais, par exemple. »Kernighan, aujourd'hui âgé de 80 ans, mentionne avec désinvolture dans l'interview qu'il a également patché quelque chose de « rapide et malpropre » pour permettre à AWK de gérer les fichiers CSV.Sources : GitHub Wikipedia , VidéoQuel est votre outil d'extraction de données préféré ?Que pensez-vous de AWK ?Avez-vous lu le livre? Quel est votre avis ?