Clique Aqui Extraindo uma base de dados de um search engine - Página 2

Lista de Usuários Marcados

Página 2 de 5 PrimeiroPrimeiro 1234 ... ÚltimoÚltimo
Resultados 11 a 20 de 47
Like Tree12Likes

Tópico: Extraindo uma base de dados de um search engine

  1. #11
    Administrador Avatar de Alvinho
    Data de Ingresso
    08/09/07
    Posts
    48.548
    Porra, search sem nada mostra todos? Só rodar um scraper simples então e gg
    Registre-se ou faça login para ver assinaturas.

  2. #12
    World Class Avatar de ekalil
    Data de Ingresso
    24/02/08
    Localização
    São Paulo
    Posts
    27.226
    Citação Postado originalmente por Alvinho Ver Post
    Porra, search sem nada mostra todos? Só rodar um scraper simples então e gg
    Nao mostrou todos nao. Apareceu a seguinte mensagem:

    Your search query resulted in 43138 matches.
    Please select the BACK key on your browser and refine your search.

    Mas acho que isso eh pq excedou o maximo que matches, sei la.

    Se procurar ano a ano acho que vai de boa.

    edit: procurei o ano de 2001 aqui e retornou 792 resultados. Tem algum desses scraper pra recomendar @Alvinho?
    Última edição por ekalil; 11-10-2013 às 14:38.
    Registre-se ou faça login para ver assinaturas.

  3. #13
    World Class Avatar de Bombado
    Data de Ingresso
    11/01/08
    Localização
    Goiânia
    Posts
    10.356
    O script dos likes que o cara fez procurava em todas as páginas, não é difícil fazer isso aí não.
    ekalil likes this.
    Registre-se ou faça login para ver assinaturas.

  4. #14
    World Class Avatar de ekalil
    Data de Ingresso
    24/02/08
    Localização
    São Paulo
    Posts
    27.226
    @RKint, tem como dar uma lida no OP e ver quao dificil eh fazer isso?
    Registre-se ou faça login para ver assinaturas.

  5. #15
    Administrador Avatar de Alvinho
    Data de Ingresso
    08/09/07
    Posts
    48.548
    quando precisei, há vários anos atrás, usei esse aqui e deu certo:
    Web scraping software and services | screen-scraper

    lembro que ele só demorava pra pegar tudo (era um script pra entrar na página de cada jogador da NBA e pegar as stats do último jogo), mas como você vai rodar 1x acho que não tem problema.

    mas você vai precisar de algum conhecimento de expressões regulares ou então ler os tutoriais todos e tal.
    Preacher and ekalil like this.
    Registre-se ou faça login para ver assinaturas.

  6. #16
    Moderador
    Avatar de Preacher
    Data de Ingresso
    13/09/07
    Localização
    GB
    Posts
    12.768
    Images
    1528
    Citação Postado originalmente por Fion Ver Post
    Dá sim ekalil, mas de longe e com os dados que você postou fica um pouco difícil. Sem manipular a DB de forma, digamos, heterodoxa, procurando um possível sqli ou verificando uma possível outra forma de manipulação da mesma alterando os parâmetros de busca, eu pensaria em como adaptar um crawler alí, usando desde softs já prontos, como o teleportpro (Teleport Pro download - Baixaki) ou caso seja difícil adaptar um programa pronto eu pensaria em um crawler customizado, que um programador pode fazer para você através de um simples script em perl, por exemplo, e "chupar" as informações e mesmo depura-las.

    Em suma, as opções:

    1- Métodos heterodoxos de manipulação remota de database (pode dar merda caso não se saiba o que se está fazendo);

    2- Utilização de programas tipo web-crawler que se adapte ao caso;

    3-Feitura de um script dando um trocado para um programador que pode ser conseguido nos meios acadêmicos que você frequenta aí.

    Em suma é isto imNho (o not no caso do acrônimo é que eu já utilizei os três métodos para intentos semelhantes em muitas, mas muitas vezes, quando tinha por hobby brincar com servidores mundo afora. Peter Pan, u know hehe).
    E dá pra fazer isso pra alimentar uma database própria, a partir de dados de vários sites?
    Registre-se ou faça login para ver assinaturas.

  7. #17
    Expert Avatar de Fion
    Data de Ingresso
    19/05/11
    Posts
    2.922
    Citação Postado originalmente por Preacher Ver Post
    Citação Postado originalmente por Fion Ver Post
    Dá sim ekalil, mas de longe e com os dados que você postou fica um pouco difícil. Sem manipular a DB de forma, digamos, heterodoxa, procurando um possível sqli ou verificando uma possível outra forma de manipulação da mesma alterando os parâmetros de busca, eu pensaria em como adaptar um crawler alí, usando desde softs já prontos, como o teleportpro (Teleport Pro download - Baixaki) ou caso seja difícil adaptar um programa pronto eu pensaria em um crawler customizado, que um programador pode fazer para você através de um simples script em perl, por exemplo, e "chupar" as informações e mesmo depura-las.

    Em suma, as opções:

    1- Métodos heterodoxos de manipulação remota de database (pode dar merda caso não se saiba o que se está fazendo);

    2- Utilização de programas tipo web-crawler que se adapte ao caso;

    3-Feitura de um script dando um trocado para um programador que pode ser conseguido nos meios acadêmicos que você frequenta aí.

    Em suma é isto imNho (o not no caso do acrônimo é que eu já utilizei os três métodos para intentos semelhantes em muitas, mas muitas vezes, quando tinha por hobby brincar com servidores mundo afora. Peter Pan, u know hehe).
    E dá pra fazer isso pra alimentar uma database própria, a partir de dados de vários sites?
    Claro que sim. No caso dele ainda dá para fazer um download manager chupar todas as páginas e depois edita-las e limpa-las com um editor de texto simples, basta prática e se faz em poucos movimentos.
    Registre-se ou faça login para ver assinaturas.

  8. #18
    Expert Avatar de SketchDraft
    Data de Ingresso
    10/01/10
    Localização
    Sydney, Straya
    Posts
    3.206
    Eu não consigo ver essa facilidade toda que estão dizendo ai não, hahahaha.

    Web scraping e web crawler são a mesma coisa né?(tô perguntando mesmo, já conhecia a técnica de ler a página, armazenar página mas não conhecia essas significações.)

    Se puderem me ajudar a visualizar o que vem depois eu ficaria imensamente grato

    1) Pesquisas no banco que abranjam maioria dos nomes, por ano como o @ekalil sugeriu.
    2) web scraping neles, beleza.

    Mas como transformar isso em banco de dados? Mais script pra dentro?
    O caso do @RKint não usa armazenamento em banco de dados, cada pesquisa o aplicativo varre a página né ?

    Eu não consigo ver essa facilidade toda não.

    ps: eu pensei em sql injection, para pegar o banco de dados mesmo.
    Última edição por SketchDraft; 11-10-2013 às 17:44.
    Registre-se ou faça login para ver assinaturas.

  9. #19
    Administrador Avatar de Alvinho
    Data de Ingresso
    08/09/07
    Posts
    48.548
    porra, depois que você tem os dados a coisa mais fácil é colocar num banco de dados neh. ou então já faz o resultado do scraping em sql e gg

    quando eu fiz a parada da NBA o scraping já fazia os inserts no banco de dados
    Registre-se ou faça login para ver assinaturas.

  10. #20
    World Class Avatar de rocksfeller
    Data de Ingresso
    23/10/09
    Localização
    Universo Paralello
    Posts
    5.055
    ué @SketchDraft, essa não é a parte mais fácil?

    a partir do momento que vc já leu o dado, é só inserir numa base de dados que vc criou. não?

    edit: o mito foi mais rápido em demonstrar mais um campo de conhecimento que ele domina. vnh mito!
    Bombado and Fion like this.
    Registre-se ou faça login para ver assinaturas.

Página 2 de 5 PrimeiroPrimeiro 1234 ... ÚltimoÚltimo

Permissões de postagem

  • Você não pode iniciar novos tópicos
  • Você não pode enviar respostas
  • Você não pode enviar anexos
  • Você não pode editar suas mensagens
  •  
© 2007-2019 · MaisEV · Todos os direitos reservados