# Le Bloc Note pour apprendre à encoder les caractères :

Un paquet de données transmit entre deux machines via internet que ce soit du texte, des images ou du son, tout comme un fichier informatique quel qu'il soit, ne sont finalement qu'une suite de 0 et de 1 que l'on peut regrouper par lots de 8 formant ainsi une séquence d'octects...

Utiliser un encodage plutôt qu'un autre revient à interpréter la même séquence d'octets de deux façons différentes au risque de commettre des erreurs...

## L'ASCII :

Pour interpréter correctement un message textuel échangé entre ordinateurs, le choix d'une convention de codage commune et standardisée s'est imposé dès le début des années 1960. C'est la norme **ASCII** pour American Standard Code for Information Interchange qui a été retenu pour le codage des caractères.

C'est une table de 128 caractères numérotés de 0 à 127 (codés sur 7 bits) qui inclue les lettres majuscules et minuscules, les symboles de ponctuation (& ~ , . ; # " - etc...) et les chiffres :

<img alt="ASCII-Table" src="https://upload.wikimedia.org/wikipedia/commons/d/dd/ASCII-Table.svg">

Ce jeu de symboles est suffisant pour rédiger un programme informatique ou un texte en Anglais. Mais il ne permet pas d'écrire dans d'autres langues qui utiliseraient des accents par exemple...

<h3 class='fa fa-graduation-cap' style="color: MediumSeaGreen"> A faire vous même n°1 :</h3>

Vérifier si la trame d'informations binaires donnée au début du notebook [Hexadecimal-Autre_BN_pour_coder](Hexadecimal-Autre_BN_pour_coder.ipynb) prend du sens pour vous si on la décode à l'aide de la table ACSCII ?

`010011100101001101001001001011000010000001100011001001110110010101110011011101000010000001100011011011110110111101101100001000000100001`

| Binaire  |Hexadecimal| ASCII |
|:--------:|:---------:|:-----:|
|`01001110`|    `4E`   |       |
|`01010011`|    `53`   |       |
|`01001001`|    `49`   |       |
|`00101100`|    `2C`   |       |
|`00100000`|    `20`   |       |
|`01100011`|    `63`   |       |
|`00100111`|    `27`   |       |
|`01100101`|    `65`   |       |
|`01110011`|    `73`   |       |
|`01110100`|    `74`   |       |
|`00100000`|    `20`   |       |
|`01100011`|    `63`   |       |
|`01101111`|    `6F`   |       |
|`01101111`|    `6F`   |       |
|`01101100`|    `6C`   |       |
|`00100000`|    `20`   |       |
|`00100001`|    `21`   |       |

<h3 class='fa fa-graduation-cap' style="color: darkorange"> A faire vous même n°2 :</h3>

Quelle opération arithmétique doit-on réaliser pour passer d'une minuscule à une majuscule ?

...

...


<h3 class='fa fa-graduation-cap' style="color: tomato"> A faire vous même n°3 :</h3>

Peut-on transformer l'image précédemment étudiée en un message textuel codé en ASCCI ?
 
<img src="https://ericecmorlaix.github.io/img/NSI-ASCII-2D_Code.png" alt="ExerciceCodageASCII.png">

...

...


## Python et le codage des caractères :

Deux fonctions prédéfinies permettent d’effectuer la conversion entre un caractère et son identifiant numérique :

- la fonction `ord()` renvoie l’identifiant numérique correspondant au caractère passé en argument ;

- inversement, `chr()` renvoie le caractère correspondant à l'entier passé à cette fonction.


In [None]:
chr(0b01000001)

In [None]:
chr(0x41)

In [None]:
ord('A')

In [None]:
bin(65)

In [None]:
hex(ord('A'))

<h3 class='fa fa-cog' style="color: MediumSeaGreen"> A faire vous même n°4 :</h3>

**Tester** les fonctions suivantes :

```python
def code(lettre):
    return lettre,ord(lettre),bin(ord(lettre))

def decode(nombre):
    return chr(nombre),nombre,bin(nombre)
```
Puis, **écrire** un programme qui affiche pour toutes les lettres de l’alphabet un résultat du type :
```
('a', 97, '0b1100001')
('b', 98, '0b1100010')
```

Enfin, **modifier** la définition des fonctions pour inclure l'affichage du code ASCII en hexadécimal.

<h3 class='fa fa-code' style="color: darkorange"> A faire vous même n°5 :</h3>

**Ecrire** un script qui affiche dans un tableau l'ensemble des caractères imprimables et leur code ASCII respectif

<h3 class='fa fa-code' style="color: tomato"> A faire vous même n°6 :</h3>

**Ecrire** une fonction `minuscule()` qui prend en argument une lettre majuscule et renvoie la lettre minuscule correspondante.

## L'art ASCII :

***
> De [l’art ASCII](https://fr.wikipedia.org/wiki/Art_ASCII) (prononcé [aski:]) consiste à créer des images uniquement à l'aide des lettres et caractères spéciaux contenus dans l'American Standard Code for Information Interchange [ASCII](https://fr.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange) 
>
> C'est l'ancêtre des [émoticônes](https://fr.wikipedia.org/wiki/Émoticône)...  ;-)

<img src="https://ericecmorlaix.github.io/img/aSki.jpg" alt="dessin skieur" width=40%>
<center>Art ASCII ou art à ski ?</center>


> A voir également : [la webcam de Micode en ASCII art](https://youtu.be/DBnStqiLB-Q)

***

Les caractères peuvent être saisis directement par leur code ASCII en utilisant la notation ``\xhh`` où ``hh`` est le code hexadécimal du caractère.

In [None]:
S = '\x20' * 6 + '\x5c' + '\x7c' * 3 + '\x2f' + "\n"
S += '\x20' * 6 + '(0 0)' + "\n"
S += '\x2e\x7e\x6f\x6f\x4f\x7e\x7e(\x5f)' + '\x7e' * 6 + '\x2e' + "\n"

for i in range (0,3):
    if i == 1 :
        S += '\x7c  L\'art ASCII  \x7c' + "\n"
    else :
        S += '\x7c' + '\x20' * 15 + '\x7c' + "\n"
    
S += "\x27" + '\x7e' * 11 + "\x6f\x6f\x4f\x7e\x27" + "\n"

S += '\x20' * 5 + '\x7c' + '\x5f' * 2 + '\x7c' + '\x5f' * 2 + '\x7c' + "\n"
S += '\x20' * 6 + '\x7c' * 2 + '\x20' + '\x7c' * 2 + "\n"
S += '\x20' * 5 + '\x6f' * 2 + '\x4f\x20\x4f' + '\x6f'*2 + "\n"

print(S)

<h3 class='fa fa-rocket' style="color: tomato"> Prolongement :</h3>

**Développer** votre avatar en Art ASCII pour signer les entêtes de vos programmes et les docstrings de vos fonctions...

## Vers l'UTF8 :

<center>
<figure>
<img src="https://www.apprendre-en-ligne.net/bloginfo/images/humour/geek_martine-ecrit-en-utf-8.jpg" alt="geek_martine-ecrit-en-utf-8.jpg" width = "40%">
<figcaption>source = <a href="https://www.apprendre-en-ligne.net"> https://www.apprendre-en-ligne.net</a></figcaption>
</figure>
</center>

La nécessité de représenter des textes comportant des caractères non présents dans la table ASCII tels ceux de l'alphabet latin utilisés en français comme le 'à', le 'é' ou le 'ç' impose l'utilisation d'un autre codage que l'ASCII.

Plusieurs propositions de codage coexistent.

Afin de faciliter les choses, ces propositions sont des extensions du codage ASCII :

- le codage des caractères présents dans la table ASCII est conservé ;
- le principe du codage de chacun des caractères sur un octet est conservé.

Mais les 8 bits de l'octet vont être utilisés. Cela permet de coder $2^8 = 256$ caractères, soit 128 caractères supplémentaires.

L'ISO, organisation internationale de normalisation, propose de son côté plusieurs variantes de codages adaptées aux différentes langues. La plus utilisée concerne les langues européennes occidentales. Il s'agit de l'**ISO-8859-1**, aussi nommé **ISO-Latin1**.

Microsoft propose le codage dit **Windows-1252** (encore appelé ANSI, bien que cela puisse paraître abusif, l'ANSI, American National Standards Institute, n'ayant jamais validé cette table !).

Ce codage ne diffère de l'ISO-8859-1 que pour quelques caractères tels le signe euro, €, la ligature o-e, œ, ou certains guillemets qui utilisent des codes réservés par ISO-Latin-1 pour des caractères de contrôle.

Et les autres langues ?
À l'évidence, 256 caractères ne suffisent pas pour représenter les lettres de tous les alphabets utilisés (pensons au russe, à l'hébreu, au chinois, ou encore au japonais, etc...), c'est pour celà qu'un nouveau standard a été introduit au début des années 1990 : **Unicode**.

La table [**Unicode**](https://fr.wikipedia.org/wiki/Unicode) comporte la définition de près de cent cinquante mille caractères et a pour ambition de référencer tous les caractères existant au monde. Aussi, pour ne pas augmenter trop considérablement la taille des fichiers, on n'utilise pas directement la table Unicode pour coder les caractères dans la machine...

Unicode accepte plusieurs systèmes de codage : UTF-8, UTF-16, UTF-32. Le codage le plus couramment utilisé, notamment sur le Web, se nomme **UTF-8**. Son principe est le suivant : une première série de caractères sont codés sur un octet. D'autres caractères sont codés sur deux octets... 

Les 128 premiers caractères de la table UTF-8 sont compatibles avec le codage ASCII. Ainsi le codage UTF-8 d'un texte ne comportant que des caractères présents dans la table ASCII sera le même que le codage ASCII de ce texte.

Ce ne sera pas vrai pour un texte ISO-Latin-1.

Il importe donc, quand on veut décoder un texte, de savoir quel est le codage utilisé sous peine de décoder improprement les caractères.

**C'est pourquoi en NSI, on utilisera un encodage en UTF-8...**

In [None]:
help(chr)

In [None]:
help(ord)

<h3 class='fa fa-graduation-cap' style="color: MediumSeaGreen"> Exercice d'application n°1 :</h3>

1. **Rechercher** avec un programme les codes numériques des lettres é, è, ê, à, â, ï, ç et ù.
2. Même question pour les majuscules accentuées.
3. **Écrire** une fonction qui prend en paramètres deux entiers et qui affiche toutes les lettres dont les codes numériques sont compris entre ces deux entiers.
4. Sauriez vous décoder cette exclamation en Binaire : `01000010011100100110000101110110011011110010000000100001`
5. Peut-on coder cette phrase avec la table ASCII : "un âne est passé par là" (justifier la réponse)


<h3 class='fa fa-graduation-cap' style="color: MediumSeaGreen"> Exercice d'application n°2 :</h3>

*Extrait du livre [Hatier Prépabac 1<sup>ère</sup> NSI](https://www.editions-hatier.fr/livre/nsi-1re-generale-numerique-et-sciences-informatiques-prepabac-9782401052307) de Céline ADOBET, Guillaume CONNAN, Gérard ROZSAVOLGYL, Laurent SIGNAC.*

En UTF-8, le codage des caractères coïncide avec l'ASCII pour les 128 premiers caractères et les autres caractères sont représentés par plusieurs octets.

La série d'octets suivants, donnés en hexadécimal, a été relevée dans un fichier codé en UTF-8.
<center><pre>43 6F 64 C3 A9 20 65 6E 20 55 54 46 2D 38</pre></center>

Il contient uniquement des caractères de la table ASCII à l'exeption d'un " é ".

1. Quelle est la séquence d'octets qui représente le " é ", et qu'est-ce qui est écrit dans le fichier ?

2. Si le fichier avait été interprété en latin 1 (table ci-dessous), qu'est-ce qui se serait affiché ?

<center>
<figure>
<table class="wikitable" style="border-collapse:collapse;line-height:1.4;text-align:center">

<tbody><tr>
<th colspan="17" style="background-color:#FFCCBB">ISO/CEI 8859-1
</th></tr>
<tr>
<th>&#160;
</th>
<th style="width:2.5em">0</th>
<th style="width:2.5em">1</th>
<th style="width:2.5em">2</th>
<th style="width:2.5em">3
</th>
<th style="width:2.5em">4</th>
<th style="width:2.5em">5</th>
<th style="width:2.5em">6</th>
<th style="width:2.5em">7
</th>
<th style="width:2.5em">8</th>
<th style="width:2.5em">9</th>
<th style="width:2.5em">A</th>
<th style="width:2.5em">B
</th>
<th style="width:2.5em">C</th>
<th style="width:2.5em">D</th>
<th style="width:2.5em">E</th>
<th style="width:2.5em">F
</th></tr>
<tr>
<th>0
</th>
<td rowspan="2" colspan="16" style="background:#DDDDDD"><i>positions inutilisées</i>
</td></tr>
<tr>
<th>1
</th></tr>
<tr>
<th>2
</th>
<td><small style="border:1px dotted;padding:0 0.3em;color:#AAAAAA;font-size:87%">SP</small></td>
<td>!</td>
<td>"</td>
<td>#</td>
<td>$</td>
<td>%</td>
<td>&amp;</td>
<td>'</td>
<td>(</td>
<td>)</td>
<td>*</td>
<td>+</td>
<td>,</td>
<td>-</td>
<td>.</td>
<td>/
</td></tr>
<tr>
<th>3
</th>
<td>0</td>
<td>1</td>
<td>2</td>
<td>3</td>
<td>4</td>
<td>5</td>
<td>6</td>
<td>7</td>
<td>8</td>
<td>9</td>
<td>:</td>
<td>;</td>
<td>&lt;</td>
<td>=</td>
<td>&gt;</td>
<td>?
</td></tr>
<tr>
<th>4
</th>
<td>@</td>
<td>A</td>
<td>B</td>
<td>C</td>
<td>D</td>
<td>E</td>
<td>F</td>
<td>G</td>
<td>H</td>
<td>I</td>
<td>J</td>
<td>K</td>
<td>L</td>
<td>M</td>
<td>N</td>
<td>O
</td></tr>
<tr>
<th>5
</th>
<td>P</td>
<td>Q</td>
<td>R</td>
<td>S</td>
<td>T</td>
<td>U</td>
<td>V</td>
<td>W</td>
<td>X</td>
<td>Y</td>
<td>Z</td>
<td>[</td>
<td>\</td>
<td>]</td>
<td>^</td>
<td>_
</td></tr>
<tr>
<th>6
</th>
<td>`</td>
<td>a</td>
<td>b</td>
<td>c</td>
<td>d</td>
<td>e</td>
<td>f</td>
<td>g</td>
<td>h</td>
<td>i</td>
<td>j</td>
<td>k</td>
<td>l</td>
<td>m</td>
<td>n</td>
<td>o
</td></tr>
<tr>
<th>7
</th>
<td>p</td>
<td>q</td>
<td>r</td>
<td>s</td>
<td>t</td>
<td>u</td>
<td>v</td>
<td>w</td>
<td>x</td>
<td>y</td>
<td>z</td>
<td>{</td>
<td>|</td>
<td>}</td>
<td>~</td>
<td style="border-bottom:none;background:#DDDDDD">
</td></tr>
<tr>
<th>8
</th>
<td rowspan="2" colspan="16" style="background:#DDDDDD;text-align:center"><i>positions inutilisées</i>
</td></tr>
<tr>
<th>9
</th></tr>
<tr>
<th>A
</th>
<td><span style="border:1px dotted;padding:0 0.3em;color:#AAAAAA;font-size:87%">NBSP</span></td>
<td>¡</td>
<td>¢</td>
<td>£</td>
<td>¤</td>
<td>¥</td>
<td>¦</td>
<td>§</td>
<td>¨</td>
<td>©</td>
<td>ª</td>
<td>«</td>
<td>¬</td>
<td><span style="border:1px dotted;padding:0 0.3em;color:#AAAAAA">-</span></td>
<td>®</td>
<td>¯
</td></tr>
<tr>
<th>B
</th>
<td>°</td>
<td>±</td>
<td>²</td>
<td>³</td>
<td>´</td>
<td>µ</td>
<td>¶</td>
<td>·</td>
<td>¸</td>
<td>¹</td>
<td>º</td>
<td>»</td>
<td>¼</td>
<td>½</td>
<td>¾</td>
<td>¿
</td></tr>
<tr>
<th>C
</th>
<td>À</td>
<td>Á</td>
<td>Â</td>
<td>Ã</td>
<td>Ä</td>
<td>Å</td>
<td>Æ</td>
<td>Ç</td>
<td>È</td>
<td>É</td>
<td>Ê</td>
<td>Ë</td>
<td>Ì</td>
<td>Í</td>
<td>Î</td>
<td>Ï
</td></tr>
<tr>
<th>D
</th>
<td>Ð</td>
<td>Ñ</td>
<td>Ò</td>
<td>Ó</td>
<td>Ô</td>
<td>Õ</td>
<td>Ö</td>
<td>×</td>
<td>Ø</td>
<td>Ù</td>
<td>Ú</td>
<td>Û</td>
<td>Ü</td>
<td>Ý</td>
<td>Þ</td>
<td>ß
</td></tr>
<tr>
<th>E
</th>
<td>à</td>
<td>á</td>
<td>â</td>
<td>ã</td>
<td>ä</td>
<td>å</td>
<td>æ</td>
<td>ç</td>
<td>è</td>
<td>é</td>
<td>ê</td>
<td>ë</td>
<td>ì</td>
<td>í</td>
<td>î</td>
<td>ï
</td></tr>
<tr>
<th>F
</th>
<td>ð</td>
<td>ñ</td>
<td>ò</td>
<td>ó</td>
<td>ô</td>
<td>õ</td>
<td>ö</td>
<td>÷</td>
<td>ø</td>
<td>ù</td>
<td>ú</td>
<td>û</td>
<td>ü</td>
<td>ý</td>
<td>þ</td>
<td>ÿ
</td></tr></tbody></table>
<figcaption><a href="https://fr.wikipedia.org/wiki/ISO/CEI_8859-1">source = wikipedia ISO/CEI_8859-1</a></figcaption>
</figure>
</center>

Demander une correction à [Martine](https://www.apprendre-en-ligne.net/bloginfo/index.php/2009/01/21/151-martine-ecrit-en-utf-8) et/ou vérifier votre réponse à l'aide de la fonction Python suivante :

In [None]:
def code_decode(lettre):
    a = lettre.encode('utf8')
    b = a.decode('latin_1')
    return b

In [None]:
code_decode('é')

****
## Références aux programmes :

<style type="text/css">
.tg  {border-collapse:collapse;border-spacing:0;}
.tg td{font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;}
.tg th{font-family:Arial, sans-serif;font-size:14px;font-weight:normal;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;}
.tg .tg-cv16{font-weight:bold;background-color:#dae8fc;border-color:inherit;text-align:center}
.tg .tg-xldj{border-color:inherit;text-align:left}
</style>
<table class="tg">
  <tr>
    <th class="tg-cv16">Compétences développées</th>
    <th class="tg-cv16">Capacités attendues</th>
    <th class="tg-cv16">Commentaires</th>
  </tr>
  <tr>
    <td class="tg-xldj">Représentation d’un texte en machine.<br><br>Exemples des encodages ASCII, ISO-8859-1, Unicode</td>
    <td class="tg-xldj">Identifier l’intérêt des différents systèmes d’encodage.<br><br>Convertir un fichier texte dans différents formats d’encodage.</td>
    <td class="tg-xldj">Aucune connaissance précise des normes d’encodage n’est exigible.</td>
  </tr>
</table>

<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Licence Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />Ce document, inspiré des travaux de David ROCHE, Stephan VAN ZUIJLEN, et d'autres ressources listées plus haut, est mis à disposition selon les termes de la <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">Licence Creative Commons Attribution -  Partage dans les Mêmes Conditions 4.0 International</a>.

Pour toute question, suggestion ou commentaire : <a href="mailto:eric.madec@ecmorlaix.fr">eric.madec@ecmorlaix.fr</a>