- Messaggi: 32
- Ringraziamenti ricevuti 0
Intelligenza Artificiale 07-08
- Francesco Mele
-
- Offline
- Junior Member
-
Riduci
Di più
17 Anni 3 Mesi fa #79109
da Francesco Mele
Risposta da Francesco Mele al topic Intelligenza Artificiale 07-08
forse ho fatto casino con i messaggi!!
Comunque le variabili sono C:/chaos/chaosparser
e poi ovviamente quelle con \lib.. adesso sembra funzionare
Comunque le variabili sono C:/chaos/chaosparser
e poi ovviamente quelle con \lib.. adesso sembra funzionare
Si prega Accedi o Crea un account a partecipare alla conversazione.
17 Anni 3 Mesi fa #79113
da Arianna
Risposta da Arianna al topic Intelligenza Artificiale 07-08
Per ritrovare le etichette nei file html ho usato i riferimenti xpointer contenuti nei file xml. Ci sono però dei problemi con i seguenti percorsi:
/html[1]/body[1]/div[1]/div[1]/div[1]/div[2]/div[4]/div[1]/div[2]/table[1]/tbody[1]/tr[8]/td[5]/a[2]
e con
/html[1]/body[1]/div[1]/div[1]/div[1]/div[2]/div[4]/div[1]/div[2]/p[1]/font[1]
Cioè nel primo percorso c'è tbody che però non è mai presente nel file html e nel secondo c'è font che sistematicamente non è presente nel file html.
Allora vorrei chiedervi una regex in java che dato
/html[1]/body[1]/div[1]/div[1]/div[1]/div[2]/div[4]/div[1]/div[2]/table[1]/tbody[1]/tr[8]/td[5]/a[2]
restituisca
/html[1]/body[1]/div[1]/div[1]/div[1]/div[2]/div[4]/div[1]/div[2]/table[1]/tr[8]/td[5]/a[2] (si deve escludere tbody)
/html[1]/body[1]/div[1]/div[1]/div[1]/div[2]/div[4]/div[1]/div[2]/table[1]/tbody[1]/tr[8]/td[5]/a[2]
e con
/html[1]/body[1]/div[1]/div[1]/div[1]/div[2]/div[4]/div[1]/div[2]/p[1]/font[1]
Cioè nel primo percorso c'è tbody che però non è mai presente nel file html e nel secondo c'è font che sistematicamente non è presente nel file html.
Allora vorrei chiedervi una regex in java che dato
/html[1]/body[1]/div[1]/div[1]/div[1]/div[2]/div[4]/div[1]/div[2]/table[1]/tbody[1]/tr[8]/td[5]/a[2]
restituisca
/html[1]/body[1]/div[1]/div[1]/div[1]/div[2]/div[4]/div[1]/div[2]/table[1]/tr[8]/td[5]/a[2] (si deve escludere tbody)
Si prega Accedi o Crea un account a partecipare alla conversazione.
- Francesca Morozzi
-
- Offline
- Senior Member
-
Riduci
Di più
- Messaggi: 73
- Ringraziamenti ricevuti 0
17 Anni 3 Mesi fa #79117
da Francesca Morozzi
Risposta da Francesca Morozzi al topic Intelligenza Artificiale 07-08
ma il problema è tbody in questo determinato percorso o in generale?
nel senso se fai una regex che semplicemente elimina tbody da tutto il file xml non va bene?
Ragazzi io brancolo un pò nel buio...per ora ho fatto il classico Html to text che mi ripulisce il file html da tutti i tag e lo porta in txt, ma adesso non so bene che strada prendere...voi come siete orientati?
nel senso se fai una regex che semplicemente elimina tbody da tutto il file xml non va bene?
Ragazzi io brancolo un pò nel buio...per ora ho fatto il classico Html to text che mi ripulisce il file html da tutti i tag e lo porta in txt, ma adesso non so bene che strada prendere...voi come siete orientati?
Si prega Accedi o Crea un account a partecipare alla conversazione.
- COM_EASYSOCIAL_GUEST_NAME
-
- Visitatori
-
17 Anni 3 Mesi fa #79119
da COM_EASYSOCIAL_GUEST_NAME
Risposta da COM_EASYSOCIAL_GUEST_NAME al topic Intelligenza Artificiale 07-08
io dopo quello ho fatto il tokenizer in java, che prende il txt e lo ripulisce da tutti i caratteri non-ascii, e in più separa le parole... and next step is...?
Si prega Accedi o Crea un account a partecipare alla conversazione.
- Francesca Morozzi
-
- Offline
- Senior Member
-
Riduci
Di più
- Messaggi: 73
- Ringraziamenti ricevuti 0
17 Anni 3 Mesi fa #79122
da Francesca Morozzi
Risposta da Francesca Morozzi al topic Intelligenza Artificiale 07-08
Che intendi per separare le parole? tipo metterle su righe diverse? oppure separarle con qualche separatore?
Ma sopratutto...perchè bisogna separarle? voglio dire chaos non funziona lo stesso con un testo semplice in txt?
Ma sopratutto...perchè bisogna separarle? voglio dire chaos non funziona lo stesso con un testo semplice in txt?
Si prega Accedi o Crea un account a partecipare alla conversazione.
- COM_EASYSOCIAL_GUEST_NAME
-
- Visitatori
-
17 Anni 3 Mesi fa #79127
da COM_EASYSOCIAL_GUEST_NAME
Next step : Creare il gold standard se non lo hai ancora fatto...altrimenti segmentatore....
Risposta da COM_EASYSOCIAL_GUEST_NAME al topic Intelligenza Artificiale 07-08
io dopo quello ho fatto il tokenizer in java, che prende il txt e lo ripulisce da tutti i caratteri non-ascii, e in più separa le parole... and next step is...?
Next step : Creare il gold standard se non lo hai ancora fatto...altrimenti segmentatore....
Si prega Accedi o Crea un account a partecipare alla conversazione.