Tradução: Cicero Inacio da Silva
palavras-chave: busca, Google, descoberta do conhecimento, biblioteca digital, classificação, folksonomia, recuperação da informação, HCI, interface, visualização da informação, humanidades digitais, analítica cultural, analítica visual, estudos do software, Manovich
Pesquisadores das humanidades e dos estudos de mídia do início do século XXI tem acesso a quantidades de mídias sem precedentes - mais do que eles podem possivelmente estudar, simplesmente assistir ou mesmo pesquisar. (Como exemplo de grandes coleções de mídias, veja a lista de repositórios disponível aos participantes da competição Escavando dados 2011 - www.digginintodata.org)
O método básico das humanidades e dos estudos das mídias, que funcionava bem quando o número de objetos midiáticos era pequeno - veja todas as imagens e vídeos, padrões de notícias e os interprete - não mais funciona. Por exemplo, como você estuda 167.000 imagens da galeria Art Now Flickr, 236.000 portfólios profissionais no coroflot.com (ambos números são de Julho de 2011) ou 176.000 fotografias tiradas entre 1935 e 1944 relativas ao Farm Security Administration/Office of War digitalizadas pela biblioteca do Congresso Americano (www.loc.gov/pictures)?
Dado o tamanho das coleções de mídias digitais contemporâneas, simplesmente ver o que está dentro delas é impossível.
Embora possa parecer que as razões para isso sejam as limitações da visão e processamento de informação pelo ser humano, penso que na verdade isso é culpa dos designs de interface e da tecnologia web. Interfaces padronizadas para coleções enormes de mídias tais como lista, galeria, grade (grid) e slide não nos permitem ver os conteúdos de uma coleção inteira. Essas interfaces normalmente só disponibilizam alguns itens por vez (independentemente de você estar em modo de navegação ou procura). Esse método de acesso não nos permite compreender a “forma” de toda uma coleção e observar padrões interessantes.
As tecnologias populares de acesso às mídias dos séculos XIX e XX, tais como os projetores de diapositivos, os projetores de vídeo, os leitores de microfilmes, a moviola e o Steenbek, os discos de vinil, as fitas de áudio e vídeo, o VCR e os DVDs foram desenvolvidos para acessar um único conteúdo de mídia por vez em um número limitado de velocidades.
Esse sistema andou de mãos dadas com os mecanismos de distribuição de mídia: lojas de discos e vídeos, bibliotecas, televisão e rádio apenas disponibilizavam alguns itens de cada vez. Por exemplo, você não poderia assistir mais do que alguns poucos canais de TV ao mesmo tempo, ou pedir mais do que uma algumas poucas fitas de vídeo em uma biblioteca.
Ao mesmo tempo, esses sistemas hierárquicos de classificação utilizados nos catálogos das bibliotecas tornaram difícil procurar em uma coleção ou mesmo navegar por ordenamentos não suportados pela catalogação. Quando você caminhava de estante em estante, você seguia tipicamente uma classificação baseada em tópicos, com livros organizados por nome de autor dentro de cada categoria.
Juntos, esses sistemas de distribuição e classificação encorajaram os pesquisadores das mídias do século XX a decidir por antecipação que itens de mídia ver, ouvir ou ler. Um pesquisador normalmente começava com um tema em mente - filmes de um autor particular, trabalhos de um determinado fotógrafo ou categorias como “Filmes experimentais dos anos 1950” e “Cartões postais parisienses do início do século XX”. Era impossível imaginar navegar através de todos os filmes feitos ou em todos os cartões postais impressos. (Um dos primeiros projetos de mídia que organizam sua narrativa em torno da navegação em um arquivo de mídia é o filme História(s) do Cinema de Jean-Luc Godard, que retira amostras de centenas de filmes). O método popular das ciências sociais para trabalhar com grandes conjuntos de mídia de forma objectiva - análise de conteúdo, ou seja, os “marcadores” de semântica em uma coleção de mídia criados por inúmeras pessoas utilizando um vocabulário predefinido de termos também requer que o pesquisador decida antecipadamente que informação seria interessante marcar.
Infelizmente, o padrão atual de acesso às mídias - busca no computador - não nos tira desse paradigma. A interface da busca é um quadro em branco esperando você digitar algo. Antes de clicar no botão de pesquisar você tem que decidir que palavras-chave ou frases quer procurar. Dessa forma, enquanto a busca traz um aumento dramático na velocidade de acesso, ela assume que você saiba de antemão que algo deve valer a pena na coleção que você vai explorar.
Precisamos de técnicas para uma navegação eficiente no conteúdo e para a descoberta de padrões nas coleções maciças de mídia. Veja essa definição de “browse” (navegar): “Para examinar (sondar), para casualmente olhar através a fim de encontrar itens de interesse, especialmente sem ter conhecimento antecipado do que procurar" (Browse no Wikitionary).
Como podemos descobrir coisas interessantes em coleções massivas? Ou seja, como podemos examiná-las de forma eficiente e eficaz, sem o conhecimento do que queremos encontrar?
------------------
Anja Wiesinger escreveu uma resposta a este post:
http://neuneun.com/2011/07/in-search-of/
------------------
Algumas notas sobre a história dos mecanismos de busca e interfaces de coleções de mídia - para artigo
http://en.wikipedia.org/wiki/Microfilm "Utilizando o processo do Daguerreótipo, John Benjamin Dancer foi o primeiro a produzir microfotografias em 1839. Ele conseguiu um raio de redução de 160:1".
“Em 1896 o engenheiro canadense Reginald A. Fedessen sugeriu que as microformas eram uma solução compacta para materiais pesados freqüentemente consultados. Ele propôs que mais de 150.000.000 de palavras poderiam caber em uma polegada quadrada e que um pé cúbico poderia conter 1.5 milhões de volumes”
“O ano 1938 também viu outro grande evento na história do microfilme quando a University Microfilms International (UMI) foi estabelecida por Eugene Power.
(http://en.wikipedia.org/wiki/Emanuel_Goldberg):
Emanuel Goldberg "apresenta a sua " Máquina de Estatística", um motor de busca de documentos que usou células fotoelétricas e reconhecimento de padrões para pesquisar os metadados em rolos de documentos microfilmados (EUA, patente 1.838.389, 29 de dezembro de 1931). Essa tecnologia foi utilizada de forma variante em 1938 por Vannevar Bush em seu "seletor rápido de microfilmes", em sua "comparação" (por criptoanálise) e foi a base tecnológica para o Memex imaginário descrita no seu influente ensaio “As we may think” (Como podemos pensar) de 1945.
Recuperação da informação: http://en.wikipedia.org/wiki/Information_retreival#Timeline
"1950: o termo "recuperação da informação" parece ter sido cunhado por Calvin Mooers."
palavras-chave: busca, Google, descoberta do conhecimento, biblioteca digital, classificação, folksonomia, recuperação da informação, HCI, interface, visualização da informação, humanidades digitais, analítica cultural, analítica visual, estudos do software, Manovich
Pesquisadores das humanidades e dos estudos de mídia do início do século XXI tem acesso a quantidades de mídias sem precedentes - mais do que eles podem possivelmente estudar, simplesmente assistir ou mesmo pesquisar. (Como exemplo de grandes coleções de mídias, veja a lista de repositórios disponível aos participantes da competição Escavando dados 2011 - www.digginintodata.org)
O método básico das humanidades e dos estudos das mídias, que funcionava bem quando o número de objetos midiáticos era pequeno - veja todas as imagens e vídeos, padrões de notícias e os interprete - não mais funciona. Por exemplo, como você estuda 167.000 imagens da galeria Art Now Flickr, 236.000 portfólios profissionais no coroflot.com (ambos números são de Julho de 2011) ou 176.000 fotografias tiradas entre 1935 e 1944 relativas ao Farm Security Administration/Office of War digitalizadas pela biblioteca do Congresso Americano (www.loc.gov/pictures)?
Dado o tamanho das coleções de mídias digitais contemporâneas, simplesmente ver o que está dentro delas é impossível.
Embora possa parecer que as razões para isso sejam as limitações da visão e processamento de informação pelo ser humano, penso que na verdade isso é culpa dos designs de interface e da tecnologia web. Interfaces padronizadas para coleções enormes de mídias tais como lista, galeria, grade (grid) e slide não nos permitem ver os conteúdos de uma coleção inteira. Essas interfaces normalmente só disponibilizam alguns itens por vez (independentemente de você estar em modo de navegação ou procura). Esse método de acesso não nos permite compreender a “forma” de toda uma coleção e observar padrões interessantes.
As tecnologias populares de acesso às mídias dos séculos XIX e XX, tais como os projetores de diapositivos, os projetores de vídeo, os leitores de microfilmes, a moviola e o Steenbek, os discos de vinil, as fitas de áudio e vídeo, o VCR e os DVDs foram desenvolvidos para acessar um único conteúdo de mídia por vez em um número limitado de velocidades.
Esse sistema andou de mãos dadas com os mecanismos de distribuição de mídia: lojas de discos e vídeos, bibliotecas, televisão e rádio apenas disponibilizavam alguns itens de cada vez. Por exemplo, você não poderia assistir mais do que alguns poucos canais de TV ao mesmo tempo, ou pedir mais do que uma algumas poucas fitas de vídeo em uma biblioteca.
Ao mesmo tempo, esses sistemas hierárquicos de classificação utilizados nos catálogos das bibliotecas tornaram difícil procurar em uma coleção ou mesmo navegar por ordenamentos não suportados pela catalogação. Quando você caminhava de estante em estante, você seguia tipicamente uma classificação baseada em tópicos, com livros organizados por nome de autor dentro de cada categoria.
Juntos, esses sistemas de distribuição e classificação encorajaram os pesquisadores das mídias do século XX a decidir por antecipação que itens de mídia ver, ouvir ou ler. Um pesquisador normalmente começava com um tema em mente - filmes de um autor particular, trabalhos de um determinado fotógrafo ou categorias como “Filmes experimentais dos anos 1950” e “Cartões postais parisienses do início do século XX”. Era impossível imaginar navegar através de todos os filmes feitos ou em todos os cartões postais impressos. (Um dos primeiros projetos de mídia que organizam sua narrativa em torno da navegação em um arquivo de mídia é o filme História(s) do Cinema de Jean-Luc Godard, que retira amostras de centenas de filmes). O método popular das ciências sociais para trabalhar com grandes conjuntos de mídia de forma objectiva - análise de conteúdo, ou seja, os “marcadores” de semântica em uma coleção de mídia criados por inúmeras pessoas utilizando um vocabulário predefinido de termos também requer que o pesquisador decida antecipadamente que informação seria interessante marcar.
Infelizmente, o padrão atual de acesso às mídias - busca no computador - não nos tira desse paradigma. A interface da busca é um quadro em branco esperando você digitar algo. Antes de clicar no botão de pesquisar você tem que decidir que palavras-chave ou frases quer procurar. Dessa forma, enquanto a busca traz um aumento dramático na velocidade de acesso, ela assume que você saiba de antemão que algo deve valer a pena na coleção que você vai explorar.
Precisamos de técnicas para uma navegação eficiente no conteúdo e para a descoberta de padrões nas coleções maciças de mídia. Veja essa definição de “browse” (navegar): “Para examinar (sondar), para casualmente olhar através a fim de encontrar itens de interesse, especialmente sem ter conhecimento antecipado do que procurar" (Browse no Wikitionary).
Como podemos descobrir coisas interessantes em coleções massivas? Ou seja, como podemos examiná-las de forma eficiente e eficaz, sem o conhecimento do que queremos encontrar?
------------------
Anja Wiesinger escreveu uma resposta a este post:
http://neuneun.com/2011/07/in-search-of/
------------------
Algumas notas sobre a história dos mecanismos de busca e interfaces de coleções de mídia - para artigo
http://en.wikipedia.org/wiki/Microfilm "Utilizando o processo do Daguerreótipo, John Benjamin Dancer foi o primeiro a produzir microfotografias em 1839. Ele conseguiu um raio de redução de 160:1".
“Em 1896 o engenheiro canadense Reginald A. Fedessen sugeriu que as microformas eram uma solução compacta para materiais pesados freqüentemente consultados. Ele propôs que mais de 150.000.000 de palavras poderiam caber em uma polegada quadrada e que um pé cúbico poderia conter 1.5 milhões de volumes”
“O ano 1938 também viu outro grande evento na história do microfilme quando a University Microfilms International (UMI) foi estabelecida por Eugene Power.
(http://en.wikipedia.org/wiki/Emanuel_Goldberg):
Emanuel Goldberg "apresenta a sua " Máquina de Estatística", um motor de busca de documentos que usou células fotoelétricas e reconhecimento de padrões para pesquisar os metadados em rolos de documentos microfilmados (EUA, patente 1.838.389, 29 de dezembro de 1931). Essa tecnologia foi utilizada de forma variante em 1938 por Vannevar Bush em seu "seletor rápido de microfilmes", em sua "comparação" (por criptoanálise) e foi a base tecnológica para o Memex imaginário descrita no seu influente ensaio “As we may think” (Como podemos pensar) de 1945.
Recuperação da informação: http://en.wikipedia.org/wiki/Information_retreival#Timeline
"1950: o termo "recuperação da informação" parece ter sido cunhado por Calvin Mooers."