Ho un lungo file HTML da 100 pg e voglio mantenere solo le intestazioni, cioè H2 H3 come farlo con Open Office?

OpenOffice non ha una singola funzione integrata per estrarre solo intestazioni (H2 e H3) da un file HTML di 100 pagine. Dovrai utilizzare una combinazione di funzionalità o uno strumento esterno. Ecco alcuni approcci:

1. Utilizzando "Trova e sostituire" dello scrittore OpenOffice (limitato e noioso):

Questo metodo è possibile per un file più piccolo, ma altamente poco pratico per un file HTML di 100 pagine.

* Importa: Apri il file HTML nello scrittore OpenOffice. Probabilmente preserverà la formattazione, comprese le intestazioni.

* Trova e sostituisci (iterativo): Eseguire un'operazione "Trova e sostituire".

* Trova: `

.*?

`(Questo trova tutto tra`

`e`

`tag. Il `.*?`

`sezioni)
* Sostituisci: Mantieni questo campo vuoto. Fare clic su "Sostituisci tutto". Questo eliminerà il contenuto ma * non * l'intestazione. Ripeti per `

`tag.
* Ripeti: Dovrai quindi eliminare manualmente tutto * tranne * le intestazioni. Questo richiede molto tempo per un file di grandi dimensioni.

2. Utilizzo di Calc OpenOffice ed espressioni regolari (più avanzate, ma potenzialmente meglio):

Questo approccio è più automatizzato ma richiede una certa familiarità con espressioni regolari e funzioni di fogli di calcolo.

* Importa (come testo): Apri il file HTML in OpenOffice Calc. Importalo come testo semplice, non HTML, per evitare problemi di formattazione. Probabilmente importerà come cella singola e molto lunga.
* Dividi il testo: Utilizzare la funzione `Textsplit` (disponibile nelle versioni più recenti di OpenOffice) per dividere il testo in righe in base a un delimitatore come i ritorni di trasporto (` \ n`). Questo ti darà una riga per riga di codice HTML (approssimativamente).
* espressioni regolari (con `regex`): Usa la funzione `regex` di OpenOffice (simile alla` regexmatch` o `regexextract 'di Excel a seconda della versione) all'interno di una nuova colonna. La formula dovrebbe estrarre il testo dell'intestazione. Un esempio:`=regex (A1,"

(.*?)

"; 2)`

* Questa formula cerca `

`o`

`tag, catturando il contenuto all'interno. `|` Agisce come un operatore "o". Il `(.*?)` Cattura il contenuto in modo non-gravido. Il `2` estrae il secondo gruppo di cattura; Se solo `

`è stato trovato che sarebbe stata una stringa vuota.
* Filtro e pulito: Filtro per celle non vuote per rimuovere le voci senza titoli. Avrai comunque bisogno di un po 'di pulizia manuale per rimuovere qualsiasi spazio bianco o caratteri vaganti dai risultati.

3. Utilizzo di strumenti esterni (consigliati):

Questo è di gran lunga il metodo più semplice ed efficiente per un file di grandi dimensioni. Usa uno strumento di elaborazione del testo dedicato o un linguaggio di scripting come Python:

* Python con `bella zuppa`: Python, con la "bellissima biblioteca di zuppa", è eccellente per l'analisi HTML. Uno script breve può estrarre solo i tag `H2` e` H3` e il loro contenuto. Molti tutorial online mostrano come farlo.

Esempio di script Python:

`` `Python
Da BS4 Import Beautifulsoup

con open ("your_100page_html_file.html", "r", codifica ="utf-8") come f:
html =f.read ()

Soup =BeautifulSoup (html, "html.parser")

headings =[]
per H2 in zuppa.find_all ("h2"):
headings.append (h2.text.strip ())
per H3 in zuppa.find_all ("h3"):
headings.append (h3.text.strip ())

con open ("extracted_headings.txt", "w", codifica ="UTF-8") come outfile:
Per essere diretti alle intestazioni:
outfile.write (Heading + "\ n")

Stampa ("Intestazioni estratte su extrated_headings.txt")
`` `

Ricorda di sostituire `" your_100page_html_file.html "` con il nome del file effettivo. Dovrai installare `bellissima zuppa`:` pip Installa Beautiuup4`

L'approccio Python è fortemente raccomandato per la sua efficienza e precisione. I metodi OpenOffice sono significativamente più ingombranti per un file di queste dimensioni.

Quali sono alcuni diversi tipi di spaziatura della linea che puoi utilizzare in un documento?
Quali sono i vantaggi dell'utilizzo di un progetto di documenti?

Informazioni correlate

Come convertire un file di MS Publisher
Come creare un albero di decisione in Word
Come aggiungere video su un iPod utilizzando iTunes
Come cambiare lo sfondo su Windows 7 Media Center
Come fare Effetti sulle fotografie di matrimonio Con Photoshop
Puoi vedere la cartella delle informazioni sul volume del sistema ma non hai accesso?
Come risolvere granulose immagini mosse
Come sbarazzarsi di smagliature in Photoshop

Ho un lungo file HTML da 100 pg e voglio mantenere solo le intestazioni, cioè H2 H3 come farlo con Open Office?

.*?

`e`

`sezioni) * Sostituisci: Mantieni questo campo vuoto. Fare clic su "Sostituisci tutto". Questo eliminerà il contenuto ma * non * l'intestazione. Ripeti per `

(.*?)

(.*?)

`o`

`tag, catturando il contenuto all'interno. `|` Agisce come un operatore "o". Il `(.*?)` Cattura il contenuto in modo non-gravido. Il `2` estrae il secondo gruppo di cattura; Se solo `

Informazioni correlate

Articoli consigliati

`sezioni)
* Sostituisci: Mantieni questo campo vuoto. Fare clic su "Sostituisci tutto". Questo eliminerà il contenuto ma * non * l'intestazione. Ripeti per `