fbpx
Skip to main content

Intelligenza Artificiale 07-08

Di più
17 Anni 3 Mesi fa #79109 da Francesco Mele
forse ho fatto casino con i messaggi!!

Comunque le variabili sono C:/chaos/chaosparser
e poi ovviamente quelle con \lib.. adesso sembra funzionare :D :D

Si prega Accedi o Crea un account a partecipare alla conversazione.

Di più
17 Anni 3 Mesi fa #79113 da Arianna
Per ritrovare le etichette nei file html ho usato i riferimenti xpointer contenuti nei file xml. Ci sono però dei problemi con i seguenti percorsi:

/html[1]/body[1]/div[1]/div[1]/div[1]/div[2]/div[4]/div[1]/div[2]/table[1]/tbody[1]/tr[8]/td[5]/a[2]

e con

/html[1]/body[1]/div[1]/div[1]/div[1]/div[2]/div[4]/div[1]/div[2]/p[1]/font[1]

Cioè nel primo percorso c'è tbody che però non è mai presente nel file html e nel secondo c'è font che sistematicamente non è presente nel file html.

Allora vorrei chiedervi una regex in java che dato

/html[1]/body[1]/div[1]/div[1]/div[1]/div[2]/div[4]/div[1]/div[2]/table[1]/tbody[1]/tr[8]/td[5]/a[2]

restituisca

/html[1]/body[1]/div[1]/div[1]/div[1]/div[2]/div[4]/div[1]/div[2]/table[1]/tr[8]/td[5]/a[2] (si deve escludere tbody)

Si prega Accedi o Crea un account a partecipare alla conversazione.

Di più
17 Anni 3 Mesi fa #79117 da Francesca Morozzi
ma il problema è tbody in questo determinato percorso o in generale?
nel senso se fai una regex che semplicemente elimina tbody da tutto il file xml non va bene?

Ragazzi io brancolo un pò nel buio...per ora ho fatto il classico Html to text che mi ripulisce il file html da tutti i tag e lo porta in txt, ma adesso non so bene che strada prendere...voi come siete orientati?

Si prega Accedi o Crea un account a partecipare alla conversazione.

  • COM_EASYSOCIAL_GUEST_NAME
  • Avatar di COM_EASYSOCIAL_GUEST_NAME
  • Visitatori
  • Visitatori
17 Anni 3 Mesi fa #79119 da COM_EASYSOCIAL_GUEST_NAME
Risposta da COM_EASYSOCIAL_GUEST_NAME al topic Intelligenza Artificiale 07-08
io dopo quello ho fatto il tokenizer in java, che prende il txt e lo ripulisce da tutti i caratteri non-ascii, e in più separa le parole... and next step is...? :D

Si prega Accedi o Crea un account a partecipare alla conversazione.

Di più
17 Anni 3 Mesi fa #79122 da Francesca Morozzi
Che intendi per separare le parole? tipo metterle su righe diverse? oppure separarle con qualche separatore?
Ma sopratutto...perchè bisogna separarle? voglio dire chaos non funziona lo stesso con un testo semplice in txt?

Si prega Accedi o Crea un account a partecipare alla conversazione.

  • COM_EASYSOCIAL_GUEST_NAME
  • Avatar di COM_EASYSOCIAL_GUEST_NAME
  • Visitatori
  • Visitatori
17 Anni 3 Mesi fa #79127 da COM_EASYSOCIAL_GUEST_NAME
Risposta da COM_EASYSOCIAL_GUEST_NAME al topic Intelligenza Artificiale 07-08

io dopo quello ho fatto il tokenizer in java, che prende il txt e lo ripulisce da tutti i caratteri non-ascii, e in più separa le parole... and next step is...? :D


Next step : Creare il gold standard se non lo hai ancora fatto...altrimenti segmentatore.... :)

Si prega Accedi o Crea un account a partecipare alla conversazione.