Home Hardware Networking Programmazione Software Domanda Sistemi
Conoscenza del computer >> software >> Portable Document Format >> .

Ho un lungo file HTML da 100 pg e voglio mantenere solo le intestazioni, cioè H2 H3 come farlo con Open Office?

OpenOffice non ha una singola funzione integrata per estrarre solo intestazioni (H2 e H3) da un file HTML di 100 pagine. Dovrai utilizzare una combinazione di funzionalità o uno strumento esterno. Ecco alcuni approcci:

1. Utilizzando "Trova e sostituire" dello scrittore OpenOffice (limitato e noioso):

Questo metodo è possibile per un file più piccolo, ma altamente poco pratico per un file HTML di 100 pagine.

* Importa: Apri il file HTML nello scrittore OpenOffice. Probabilmente preserverà la formattazione, comprese le intestazioni.

* Trova e sostituisci (iterativo): Eseguire un'operazione "Trova e sostituire".

* Trova: `

.*?

`(Questo trova tutto tra`

`e`

`tag. Il `.*?`

`sezioni)

* Sostituisci: Mantieni questo campo vuoto. Fare clic su "Sostituisci tutto". Questo eliminerà il contenuto ma * non * l'intestazione. Ripeti per `

`tag.

* Ripeti: Dovrai quindi eliminare manualmente tutto * tranne * le intestazioni. Questo richiede molto tempo per un file di grandi dimensioni.

2. Utilizzo di Calc OpenOffice ed espressioni regolari (più avanzate, ma potenzialmente meglio):

Questo approccio è più automatizzato ma richiede una certa familiarità con espressioni regolari e funzioni di fogli di calcolo.

* Importa (come testo): Apri il file HTML in OpenOffice Calc. Importalo come testo semplice, non HTML, per evitare problemi di formattazione. Probabilmente importerà come cella singola e molto lunga.

* Dividi il testo: Utilizzare la funzione `Textsplit` (disponibile nelle versioni più recenti di OpenOffice) per dividere il testo in righe in base a un delimitatore come i ritorni di trasporto (` \ n`). Questo ti darà una riga per riga di codice HTML (approssimativamente).

* espressioni regolari (con `regex`): Usa la funzione `regex` di OpenOffice (simile alla` regexmatch` o `regexextract 'di Excel a seconda della versione) all'interno di una nuova colonna. La formula dovrebbe estrarre il testo dell'intestazione. Un esempio:`=regex (A1,"

(.*?)

|

(.*?)

"; 2)`

* Questa formula cerca `

`o`

`tag, catturando il contenuto all'interno. `|` Agisce come un operatore "o". Il `(.*?)` Cattura il contenuto in modo non-gravido. Il `2` estrae il secondo gruppo di cattura; Se solo `

`è stato trovato che sarebbe stata una stringa vuota.

* Filtro e pulito: Filtro per celle non vuote per rimuovere le voci senza titoli. Avrai comunque bisogno di un po 'di pulizia manuale per rimuovere qualsiasi spazio bianco o caratteri vaganti dai risultati.

3. Utilizzo di strumenti esterni (consigliati):

Questo è di gran lunga il metodo più semplice ed efficiente per un file di grandi dimensioni. Usa uno strumento di elaborazione del testo dedicato o un linguaggio di scripting come Python:

* Python con `bella zuppa`: Python, con la "bellissima biblioteca di zuppa", è eccellente per l'analisi HTML. Uno script breve può estrarre solo i tag `H2` e` H3` e il loro contenuto. Molti tutorial online mostrano come farlo.

Esempio di script Python:

`` `Python

Da BS4 Import Beautifulsoup

con open ("your_100page_html_file.html", "r", codifica ="utf-8") come f:

html =f.read ()

Soup =BeautifulSoup (html, "html.parser")

headings =[]

per H2 in zuppa.find_all ("h2"):

headings.append (h2.text.strip ())

per H3 in zuppa.find_all ("h3"):

headings.append (h3.text.strip ())

con open ("extracted_headings.txt", "w", codifica ="UTF-8") come outfile:

Per essere diretti alle intestazioni:

outfile.write (Heading + "\ n")

Stampa ("Intestazioni estratte su extrated_headings.txt")

`` `

Ricorda di sostituire `" your_100page_html_file.html "` con il nome del file effettivo. Dovrai installare `bellissima zuppa`:` pip Installa Beautiuup4`

L'approccio Python è fortemente raccomandato per la sua efficienza e precisione. I metodi OpenOffice sono significativamente più ingombranti per un file di queste dimensioni.

 

software © www.354353.com