ForunsBB

Tecnologia Programação e SEO para Webmasters
Data/Hora: 22 mai 2012, 12:38

Os Horários são TMG




Criar Novo Tópico Responder a este Tópico  [ 8 mensagens ] 
Autor Mensagem
 Assunto da Mensagem: Mário Silva, coordenador do projecto Tumba.pt
MensagemEnviado: 26 ago 2005, 21:10 
Offline
Nível 6
Nível 6
Avatar do Utilizador

Registado: 14 fev 2003, 13:52
Mensagens: 7471
Localização: Lisboa
Hoje vamos entrevistar, Mário Silva, coordenador do projecto Tumba.pt, um motor de busca totalmente em Português.

Mário, antes de mais obrigado por aceitar esta entrevista.
Para quem ainda não conhece, poderia explicar o que é o Tumba?

É um motor de pesquisa, acessível em http://www.tumba.pt Foi desenvolvido pelo grupo XLDB da Faculdade de Ciências da Universidade de Lisboa (http://xldb.fc.ul.pt).

No exterior, o tumba! é muito semelhante a todos os outros, usa o design-padrão da interface de utilizador que se veio a consolidar ao longo dos últimos 10 anos. No interior contudo é substancialmente diferente, desde logo porque só indexa conteúdos da Web Portuguesa (temos uma definição para o conceito). Estando focado no português, usa ferramentas de tratamento de texto que estão cientes das especificidades da nossa língua. Convidamos os leitores a darem uma volta e experimentar as várias funcionalidades, algumas únicas.

Ao mesmo tempo, estamos a evoluir no sentido de dar ao nosso motor um conhecimento muito maior de Portugal. Dentro de algumas semanas, por exemplo, lançaremos uma versão nova, o geotumba, que permitirá fazer pesquisas com âmbito geográfico: ao procurar, por exemplo, "restaurantes em Leiria" aparecerão na lista de resultados páginas que, não tenham a palavra "Leiria", respeitem a restaurantes nessa região.


Com surgiu a ideia de criar um motor de busca nacional? Foi a falta de conteúdo *nosso* ou zangaram-se com o google? :-)
De forma alguma. Os conteúdos existentes em Portugal são realemente, em geral, muitíssimo pobres, mas o tumba! nada faz nessa vertente, embora seja um componente fundamental do ecossistema, apenas se alimenta dos conteúdos que outros produzem. Por outro lado, poucos em Portugal se apercebem das limitações da versão portuguesa do google relativamente à versão oferecida nos EUA ou Reino Unido, muito mais rica em funcionalidades. Ao desenvolvermos e demonstrarmos boas ferramentas para processar textos em Português, vamos também arranjando forma de a nossa língua se afirmar de forma viva na Internet.

É um facto que a pesquisa de textos em bases de documentos é, de longe, em conjunto com o email, a aplicação mais utilizada da Internet. Importava criar em Portugal um grupo com competências sérias neste domínio, tanto mais que há um património inestimável a defender, o português. Para tal, há que apostar seriamente no desenvolvimento de ferramentas computacionais para processamento da língua portuguesa. O tumba! aparece como um veículo para expor muitos desses desenvolvimentos, não só nossos como de outros grupos de investigadores em Portugal que colaboram connosco e têm contribuído com algum do seu software.

Mas, houve, além destas, váias outras razões, de índole cultural e sociológica. Sinteticamente:

i) culturais: nos países do norte da europa e américa existem iniciativas de preservação dos conteúdos publicados na web para que os historiadores daqui a 50+ anos possam vir a estudá-los. Hoje, no Público, Vital Moreira falava na blogosfera como o 5º poder. Quem está a arquivar esses conteúdos para serem lidos daqui a 50 anos? No nosso grupo pretendemos estudar formas de recolher e indexar a web de forma sistemática com este fim.

ii) sociológicas: que é que os Portugueses procuram na Internet? O zeitgeist do google diz que é sexo e Isabel Figueira, mas nós sabemos que se a palavra "sexo" constitui a consulta mais frequente, tal não representa o *tema* mais procurado.

Não havendo qualquer iniciativa nacional nesse sentido, pareceu-me que alguém devia por mãos à obra.


Que tecnologias foram usadas para a criação do motor de busca? Quais são as pessoa que contribuem ou podem contribuir para ele, e como?
O tumba! corre em plataformas linux e software open source (apache http, tomcat). As recolhas de informação são feitas por programas em Java. As pesquisas nos índices são programadas em C++. O único software comercial que usamos é um sistemas de base de dados Oracle para gerir os meta-dados (informação sobre) os documentos. Usamos muitos componentes open source, como bases de dados BerkeleyDB, mySQL, hpsql, para falar apenas em sistemas de gestão de dados. Com o tempo, acabámos por escrever de novo quase todos os módulos do sistema. A realidade é que cada recolha do tumba! já colecciona mais de 10 milhões de páginas, pelo que a dimensão do que processamos nos coloca em muitos casos problememas para os quais o software diponível não foi concebido para suportar.

O núcleo duro é constituído por alunos e docentes do departamento de informática da Faculdade de Ciências da Universidade de Lisboa. Temos tido ajudas pontuais de pessoas que nos contactam a oferecer software, que nós incorporamos (por exemplo, o plugin firefox foi-nos oferecid). Por vezes apercebemo-nos que um grupo de investigadores tem um trabalho interessante e abordamo-los. Por exemplo, no tumba! é possível ouvir a pronunciação de palavras portuguesas e essa funcionalidade doi desenvolvida pelo grupo de processamento da fala do INESC.

Há várias outras funcionalidades que gostaríamos que alguém contribuísse. Por exemplo, software de tradução automática. Estou também a acompanhar o trabalho do grupo de Portugues dos distributed proofreaders, que está a criar uma versão electrónica de um dicionário de Português não muito antigo que será colocado no domínio público. Com recursos como este, podemos enriquecer as capaciades únicas do tumba!


Como é que o Tumba sobrevive, já que não tem qualquer tipo de publicidade?
Não temos publicidade por opção, já que com a passagem para o domínio comercial deixaríamos de poder fazer evoluir o tumba! e suportar os objectivos iniciais de o criar para suportar e promover a actividade científica da nossa comunidade e de vir a constituir, a médio prazo, um componente da estratégia de preservação da cultura on-line portuguesa (enquanto vamos tentando acordar as autoridades para o problema!)

Sobrevivemos porque:

a) quem desenvolve/opera o tumba! tem outra actividade principal: ou é prof. universitário é investigador num projecto financiado pela FCT (tem uma bolsa de doutoramento/mestrado).

b) o alojamento e hardware do tumba são fornecidos pela FCCN.

c) O tumba! é o spin-off de trabalhos de investigação passados e em curso e o resultado de muita carolice!

Descontando o apoio da FCCN (que nos últimos 2 anos se reduziu apenas ao alojamento dos servidores), o tumba! nunca recebeu qualquer financiamento directo. A sobrevivência do tumba! não está minimamente assegurada. Apenas existiu até agora porque tem havido um grupo grande de pessoas que numa fase da sua vida decidiram que havia de existir, custasse o que custasse.


Quantos servidores a FCCN disponibiliza? Tendo em conta que, caso usem um robot para pesquisar fontes nacionais, teria que ser mais que um, ou estarei enganado?
Uma dezena. Nem tdos participam numa recolha nem têm todos funções idênticas. Neste momento estamos a recolher a uma velocidade acima de 1 milhão de páginas por dia, o que dá mais de 10 páginas/segundo. Atendendo a que há uma quantidade substancial de processamento a fazer para mastigar o conteúdo de cada uma, incluindo o seu armazenamento (em discos lentos), seria efectivamente impossível progredir a este ritmo apenas com um servidor.


Qual é a média de visitas do vosso site, e pesquisas directas por outros sites por dia? Em traços globais, o tumba.pt é um sucesso?
Antes do abaixamento típico dos meses de verão estávamos em 11300 pageviews (em média) por mês. Destas 40% são visitas à home page, 40% páginas de resultados de pesquisas introduzidas na home page e 15% pesquisas directas vindas de outros sites (os outros 5% distribuem-se pelas páginas de registo de sites e de conteúdo estático).

Creio que não temos mais acessos porque não temos capacidade para mais. Um sistema desta natureza precisa de ter uma disponibilidade muito elevada e tempos de refrescamento muito mais rápidos. O nosso software pode ter qualidade técnica meritória, nas a infraestrutura de suporte a um sistema destes em termos de hardware é reduzida e o suporte humano insignificante. Se há algo de surpreendente é o termos conseguido construir o tumba! com recursos tão reduzidos.

O tumba! não tem sequer apoios suficientes para subsistir enquanto projecto universitário, muito menos para vir a ser um dos alicerces do recurso que ambicionamos e cremos ser fundamental para afirmar Portugal (e o português). Não estamos, nessa vertente, satisfeitos; porque achamos que poderíamos dar muito mais se tivessemos condições para o fazer. No entanto, o tumba!, enquanto projecto universitário é um marco, já não tenho conhecimento de um grupo de alunos universitários ter em Portugal conseguido criar de raiz e operar como serviço público um sistema de complexidade comparável ao que desenvolvemos. Há uma distência enorme entre um conceito/ideia publicado num artigo ou demonstrado num protótipo e um sistema real. A equipa do tumba!, num contexto onde ninguém diria ser possível há quatro anos, tem conseguido resistir.


Que novas funcionalidades estão a pensar implementar no futuro?
A curto prazo: vamos re-organizar de cima a baixo todo o sistema de selecção e pontuação de páginas. Presentemente, temos uma recolha com 10 milhões de páginas que o software de pesquisa actual já não consegue suportar minimamente. Acontece que de cada vez que o tamanho das webs que processamos cresce de um factor de 10x, as estratégias que tinhamos desenvolvido antes deixam de ser eficientes. Ao mesmo tempo, queremos também melhorar significativamente a qualidade das pesquisas.

A maior parte dos novos desenvolvimentos actuais incidem no GeoTumba, um novo motor que extende o tumba! com capacidades geográficas. Desenvolvemos algoritmos de data-mining para percorrer as páginas e atribuir-lhes automaticamente um âmbito geográfico , ou seja, uma etiqueta que dirá qual a região geográfica, se existe, a que respeita. Uma vez etiquetadas as páginas podemos suportar consultas com pedidos de resultados restritos às páginas de uma dada região, como "restaurantes em Portalegre"

Há também muito trabalho já feito que poderia vir a ser incorporado no tumba! para permitir aceder à web portuguesa no passado de uma forma que ainda nunca foi mostrada. Basicamente, poderiamos suportar pesquisas restritas a um dado período de tempo e a seguir permitir aos utilizadores navegar na web, vendo-a tal como ela era nesse período (em vez de saltar para a versão mais recente, como hoje acontece)

Mas, tudo isto depende dos apoios que tivermos. Nesta altura a capacidade de armazenamento que temos está praticamente esgotada e fazer novas recolhas significa quase seguramente deitar várias das antigas fora (hoje, uma só recolha tem 10x mais páginas web do que as primeiras que fizemos há três anos e meio.


Como uma nota final, o que quer acrescentar mais sobre este projecto?
Em suma, o tumba! é um motor de busca que serve a comunidade de utilizadores da Web Portuguesa e dos investigadores em vários domínios que usam a informação existente ou contribuem com software para o melhorar. Tem características únicas que lhe advêm de estar orientado para o tratamento de conteúdos em português e da web portuguesa. Embora possam surgir spin-offs, não tem ambições de vir a ser um serviço comercial, mas sim um serviço público que venha de encontro às necessidades de preservação e pesquisa dos conteúdos de interesse para os portugueses.

Convido os leitores deste forum a fazerem uma visita exploratória ao tumba! em http://www.tumba.pt. Estamos conscientes que ainda há muito a melhorar e quaisquer comentários serão bem vindos.

Faltou dizer que os detalhes estão disponíveis nos artigos que temos escrito sobre o tumba!, em http://xldb.fc.ul.pt/publications


Muito obrigado pela entrevista, e continuação de bom projecto!


Topo
 Perfil  
 
 Assunto da Mensagem:
MensagemEnviado:  





Topo
   
 
 Assunto da Mensagem:
MensagemEnviado: 26 ago 2005, 22:35 
Offline
Nível 0
Nível 0
Avatar do Utilizador

Registado: 18 fev 2005, 17:39
Mensagens: 56
Localização: Positivo Online
não tinha conhecimento deste projecto... mas parece-me algo interessante. Vou tenta-o "seguir" mais atentamente e ver a evolução deste... é preciso dar apoio a estes projectos nacionais!!! :D

_________________
[url=http://tracker.elite-project.net/][img]httImagem


Topo
 Perfil  
 
 Assunto da Mensagem: Reiventar a roda
MensagemEnviado: 29 ago 2005, 17:30 
Ja tenho conhecimento deste projecto desde 2002, a pergunta que fiz na altura faço agora:

- Qual é a diferença do tumba para o google com a opção site:.pt?

A verdade é que o tumba devolve uma quantidade de informação muito menor do que o google. Para além do tumba não suportar as N opções que o google suporta para limitar os resultados.

Qual é a vantagem de se usar o tumba a outro motor qualquer?


Topo
  
 
 Assunto da Mensagem:
MensagemEnviado: 10 fev 2006, 22:48 
Offline
Nível 2
Nível 2
Avatar do Utilizador

Registado: 14 mar 2003, 23:24
Mensagens: 334
Localização: Cascais @ PT
Tumba = 100% Nacional

O que é Nacional é bom :D

_________________
Why belive in God, when Google has all the answers.


Topo
 Perfil  
 
 Assunto da Mensagem:
MensagemEnviado: 11 fev 2006, 18:38 
Offline
Nível 0
Nível 0
Avatar do Utilizador

Registado: 15 abr 2004, 12:15
Mensagens: 46
Se há alguma coisa que me faça orgulhar de andar na fcul é saber que estou na casa do tumba! :D

_________________
Imagem


Topo
 Perfil  
 
 Assunto da Mensagem:
MensagemEnviado: 13 fev 2006, 11:35 
Offline
Nível 2
Nível 2
Avatar do Utilizador

Registado: 09 dez 2004, 23:18
Mensagens: 331
Localização: Belmonte
Uma boa entrevista...

_________________
® Those who fear darkness have never seen what light can do... ®

Imagem


Topo
 Perfil  
 
 Assunto da Mensagem:
MensagemEnviado: 13 fev 2006, 13:36 
Citar:
Tumba = 100% Nacional

O que é Nacional é bom Very Happy


Really? Tambem tens o Sapo, Terravista, Clix etc... E são excelente motores de busca? Jesuuuuuuuuus!
Tens muitos projectos nacionais, que lá por serem nacionais não significa que tenham qualidade. Ok, a ideia de termos algo made in .pt e sempre muito boa. Mas ainda têm que amadurecer um bocado. Mas isso nao responde a minha pergunta! Qual é a vantagem de se utilizar o tumba?

Citar:
Se há alguma coisa que me faça orgulhar de andar na fcul é saber que estou na casa do tumba! Very Happy


Yuppi! Queres uma medalha? Não é só a FCT que faz projectos nacionais! Todos as univs/politecnicos o fazem! Alguns têm é o azar de ficar na gaveta...


Topo
  
 
 Assunto da Mensagem:
MensagemEnviado: 13 fev 2006, 17:12 
Offline
Nível 6
Nível 6
Avatar do Utilizador

Registado: 14 fev 2003, 13:52
Mensagens: 7471
Localização: Lisboa
QZero Escreveu:
Qual é a vantagem de se utilizar o tumba?


Esta:
Procura sapo
Procura tumba!

A procura de conteúdos EXCLUSIVAMENTE nacionais.


SL


Topo
 Perfil  
 
Mostrar mensagens anteriores:  Ordenar por  
Criar Novo Tópico Responder a este Tópico  [ 8 mensagens ] 

Os Horários são TMG


Tópicos Relacionados
 Tópicos   Autor   Respostas   Exibições   Última Mensagem 
Não há Mensagens novas não lidas neste Tópico. Humberto Silva, da TugaTech.pt

SlAiD

1

2444

08 fev 2005, 13:38

Visitante A ver últimas Mensagens

Não há Mensagens novas não lidas neste Tópico. José Silva, administrador do PubliPT.com

[ Ir para páginaIr para página: 1, 2 ]

SlAiD

13

10313

22 set 2006, 09:35

DvPluribus A ver últimas Mensagens

Não há Mensagens novas não lidas neste Tópico. Humberto Silva, fundador do SportingXXI.com

SlAiD

3

2827

16 nov 2006, 20:39

Explosivo A ver últimas Mensagens

Não há Mensagens novas não lidas neste Tópico. Tomás Silva, dono do site metododinheiro.com

SlAiD

5

3308

11 nov 2007, 19:47

tomasilva A ver últimas Mensagens

 


Quem está ligado:

Utilizadores a ver este Fórum: Nenhum utilizador registado e 0 visitantes


Criar Tópicos: Proibído
Responder Tópicos: Proibído
Editar Mensagens: Proibído
Apagar Mensagens: Proibído
Enviar anexos: Proibído

Pesquisar por:
Ir para:  
cron
Política de Privacidade | Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group