Home Hardware Networking Programmazione Software Domanda Sistemi
Conoscenza Informatica >> Programmazione >> Python Programming >> .

Come utilizzare Html5lib in Python

Il linguaggio di programmazione Python può supportare HTML 5 siti web utilizzando la libreria ' Html5lib . ' Questa libreria permette di scrivere script Python che analizzano HTML 5 pagine utilizzando una struttura ad albero . Strutture ad albero sono viste gerarchiche di elementi della pagina web . Accesso agli elementi della pagina web viene eseguita utilizzando un albero camminatore . L'albero camminatore ' passeggiate ' lungo le connessioni dei nodi della struttura , e può attraversare l' intero albero . È possibile utilizzare Python con ' Html5lib ' di aprire , visualizzare e stampare un sito web HTML 5 . Cose che ti serviranno
Python 3.2 linguaggio di programmazione con Html5lib modulo
Show More Istruzioni
1

Aprire l' editor di testo IDLE in Programmi (o applicazioni per Macintosh ) nella directory di Python . Si apre un file di codice sorgente vuoto
2

importare il modulo " Html5lib " scrivendo le seguenti dichiarazioni nella parte superiore del file di codice sorgente : .

Importazione html5lib
< p > da treebuilders importazione html5lib , treewalkers , serializer

importazione urllib2
3

Crea un nuovo parser HTML 5 , che verrà utilizzato per leggere un sito web HTML . Dichiarare un nuovo parser scrivendo il seguente :

parser = html5lib.HTMLParser ( ) economici 4

aprire un sito web passando il suo nome nella funzione urllib2.urlopen . Per esempio, se si desidera aprire " www.website_adddress.com ", scrivere il seguente : .

URL = urllib2.urlopen ( " http://www.website_address.com " ) read ()

5

passare il sito web in HTML 5 parser per ricevere una rappresentazione ad albero . Salva questa rappresentazione in una variabile chiamata " albero " , scrivendo la seguente dichiarazione :

albero = Parser.parse (URL ) economici 6

Creare un albero camminatore come questo:

TreeWalker = treewalkers.getTreeWalker ( " dom" ) economici 7

Passeggiata attraverso l'albero utilizzando l'albero camminatore . L'albero camminatore restituirà un flusso di informazioni che si scopre in HTML 5 sito web. Per camminare attraverso l'albero , scrivere il seguente :

stream = TreeWalker ( albero ) economici 8

serializzare il flusso in modo che si può facilmente trasmettere alla console . È possibile serializzare il flusso utilizzando le seguenti due affermazioni :

seriali = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False ) per uscita

= serial.serialize (stream ) economici 9

scorrere l' uscita serializzato del torrente come questo:

per l'elemento in uscita :
10

rientro riga immediatamente dopo l'istruzione precedente e scrivere una funzione di stampa , come questo :

stampa ( elemento ) economici 11

esegui il programma premendo F5 . Lo script si aprirà e quindi analizzare un HTML 5 pagina web . Lo script quindi serializza la struttura ad albero della pagina e lo emette alla console . L'uscita varia in base alla pagina web scelto , ma potrebbe essere simile a questa :



< /head>


Benvenuti in una pagina web!

< /body>

< /html >


 

Programmazione © www.354353.com