1. Utilizzando "Trova e sostituire" dello scrittore OpenOffice (limitato e noioso):
Questo metodo è possibile per un file più piccolo, ma altamente poco pratico per un file HTML di 100 pagine.
* Importa: Apri il file HTML nello scrittore OpenOffice. Probabilmente preserverà la formattazione, comprese le intestazioni.
* Trova e sostituisci (iterativo): Eseguire un'operazione "Trova e sostituire".
* Trova: `
* Sostituisci: Mantieni questo campo vuoto. Fare clic su "Sostituisci tutto". Questo eliminerà il contenuto ma * non * l'intestazione. Ripeti per `
* Ripeti: Dovrai quindi eliminare manualmente tutto * tranne * le intestazioni. Questo richiede molto tempo per un file di grandi dimensioni.
2. Utilizzo di Calc OpenOffice ed espressioni regolari (più avanzate, ma potenzialmente meglio):
Questo approccio è più automatizzato ma richiede una certa familiarità con espressioni regolari e funzioni di fogli di calcolo.
* Importa (come testo): Apri il file HTML in OpenOffice Calc. Importalo come testo semplice, non HTML, per evitare problemi di formattazione. Probabilmente importerà come cella singola e molto lunga.
* Dividi il testo: Utilizzare la funzione `Textsplit` (disponibile nelle versioni più recenti di OpenOffice) per dividere il testo in righe in base a un delimitatore come i ritorni di trasporto (` \ n`). Questo ti darà una riga per riga di codice HTML (approssimativamente).
* espressioni regolari (con `regex`): Usa la funzione `regex` di OpenOffice (simile alla` regexmatch` o `regexextract 'di Excel a seconda della versione) all'interno di una nuova colonna. La formula dovrebbe estrarre il testo dell'intestazione. Un esempio:`=regex (A1,"
* Questa formula cerca `
* Filtro e pulito: Filtro per celle non vuote per rimuovere le voci senza titoli. Avrai comunque bisogno di un po 'di pulizia manuale per rimuovere qualsiasi spazio bianco o caratteri vaganti dai risultati.
3. Utilizzo di strumenti esterni (consigliati):
Questo è di gran lunga il metodo più semplice ed efficiente per un file di grandi dimensioni. Usa uno strumento di elaborazione del testo dedicato o un linguaggio di scripting come Python:
* Python con `bella zuppa`: Python, con la "bellissima biblioteca di zuppa", è eccellente per l'analisi HTML. Uno script breve può estrarre solo i tag `H2` e` H3` e il loro contenuto. Molti tutorial online mostrano come farlo.
Esempio di script Python:
`` `Python
Da BS4 Import Beautifulsoup
con open ("your_100page_html_file.html", "r", codifica ="utf-8") come f:
html =f.read ()
Soup =BeautifulSoup (html, "html.parser")
headings =[]
per H2 in zuppa.find_all ("h2"):
headings.append (h2.text.strip ())
per H3 in zuppa.find_all ("h3"):
headings.append (h3.text.strip ())
con open ("extracted_headings.txt", "w", codifica ="UTF-8") come outfile:
Per essere diretti alle intestazioni:
outfile.write (Heading + "\ n")
Stampa ("Intestazioni estratte su extrated_headings.txt")
`` `
Ricorda di sostituire `" your_100page_html_file.html "` con il nome del file effettivo. Dovrai installare `bellissima zuppa`:` pip Installa Beautiuup4`
L'approccio Python è fortemente raccomandato per la sua efficienza e precisione. I metodi OpenOffice sono significativamente più ingombranti per un file di queste dimensioni.
software © www.354353.com