¿De qué manera Google Scholar se queda corto?

A pesar de haber sido creado por una empresa conocida por la búsqueda, Google Scholar carece miserablemente de funciones que ayuden a las búsquedas científicas (al menos, en el campo de la medicina). Uso este producto regularmente y es muy superior a casi cualquier otra cosa que haya usado en términos de la relevancia de sus resultados de búsqueda, pero aún puede ser agravante. Lista de habilidades deseadas:

  1. Ordenar por número de citas que recibió un artículo (de mayor a menor). Bonificación: ordena por número de citas que un artículo ha recibido por año en que se imprimió. ¿Por qué debería importarme un artículo de hace 10 años que solo ha sido citado 3 veces? Quiero el artículo de NEJM que ha sido citado más de 500 veces en los últimos 2 años.
  2. Busque dentro del rango de factor de impacto específico. Dos usos: establecer el rango de IF alto para temas generales generales (por ejemplo, cáncer de mama) para obtener las publicaciones de nivel 1, establecer el rango de IF más bajo para buscar revistas especializadas que puedan tener más detalles sobre afecciones más raras (por ejemplo, esofagitis eosinofílica pediátrica).
  3. “Citas” además de “Citado por” sería épico. Cuando hago una revisión de la literatura sobre un tema, literalmente escribo “revisión” como término de búsqueda para encontrar las últimas publicaciones de revisión. A menudo quiero profundizar y leer los documentos que el artículo de revisión consideró dignos de citar, pero hacerlo es un disipador de tiempo gigante porque tengo que escribirlos todos individualmente.
  4. Haga que la inclusión de libros sea una opción no predeterminada. ¿Seriamente? ¿Cuándo fue la última vez que un buen científico citó un libro en lugar del papel original del que estaba escrito el libro? Si quiero un libro, puedo encontrar uno en Amazon. Hay excepciones, como en la investigación de ética, en la que muchos libros originales están contenidos en los libros, pero este es un pequeño porcentaje de la investigación en general.
  5. Haga que “[Citation]” sea una opción no predeterminada. Quiero un enlace al documento, no un aviso de lo genial que es. Esto es inútil para mí:
  6. Deshágase de toda la basura sin sentido de la medicina alternativa. Es Google Scholar , no Google Quack . No agradezco sus resultados de búsqueda que desperdician mi tiempo con las entradas del Himalayan Journal of Alternative Botanical Medicine.

Agregaré más si pienso en ellos más tarde.

Además de la excelente respuesta de Jae Won Joh

  • Los mayores problemas son cuando las palabras clave también están en el título de la revista o institución . Por lo tanto, realmente desea poder realizar búsquedas por título o resumen o texto completo.
  • La búsqueda sinonímica sería útil . Una de las cosas más difíciles en un nuevo tema es encontrar los términos de búsqueda correctos. El uso de palabras académicas es más especializado que el lenguaje general y puede ser bastante difícil obtener resultados de búsqueda útiles al principio hasta que los descubras.
  • La búsqueda restringida de temas es otra área de mejora. Si estoy buscando documentos sobre la comercialización de productos básicos, no estoy interesado en el comercio de productos básicos, la misma palabra con dos usos muy diferentes. Del mismo modo para la función de tesorería y bonos del tesoro. Algunas palabras simplemente no son útiles como términos de búsqueda
  • Eliminación de duplicación . Si un artículo se ha publicado varias veces, aparece como resultados múltiples.
  • Análisis de autor . Cuando hago clic en un autor, sería útil tener todos sus artículos en orden cronológico, por cita, por revista o por tema.
  • No recuerdo si puede hacer búsquedas en revistas, pero nuevamente sería realmente útil si pudiera identificar los artículos más citados por revista . Entonces, ¿cuál es el artículo más citado en Harvard Business Review?
  • Mostrar el resumen : tenga un pequeño botón más que le permite mostrar u ocultar el resumen en la página de resultados de búsqueda
  • Coautores Al hacer clic en un autor, puede ver todos sus coautores
  • Incluya un índice H o similar para todos los autores y revistas.

EDITAR: después de mirar Microsoft Academic Search esta tarde, estoy totalmente impresionado, ya que la mayoría de estos puntos ya están allí. Además, existe este análisis de coautor realmente genial que es completamente adictivo. ¡Intenta ver si puedes encontrar a alguien que no tenga una cadena de coautores que lo vincule con Einstein! Intenté con Michael Porter, el profesor de la escuela de negocios (6) y con David Baltimore, el virólogo (3)

Adiós Google

Demasiados enlaces a fuentes no académicas.

En los últimos dos meses, Google Scholar comenzó a ofrecerme enlaces a Newsweek, blogs aleatorios y sitios web de iglesias. Esto va más allá del problema alternativo que mencionó Jae Won Joh. Vinculación a revistas que hacen Hipótesis Médicas verse sobrio y confiable es una cosa. Vincular a una entrada de blog que es “citada” por otras dos entradas de blog, un seminario y una publicación de Digg, una maldita publicación de Digg , es algo completamente diferente.
El objetivo de Google Scholar es filtrar fuentes obviamente poco confiables. Si quisiera obtener enlaces que no son trabajos académicos, usaría Google.

No me encuentro con toneladas de esto cuando no lo estoy buscando activamente. Pero ver historias de una década de la revista Time, blogs y enlaces a creation.com escondidos entre artículos de revistas reales es irritante.

Una cosa a tener en cuenta es que Google Scholar es un motor de búsqueda para personas de una variedad de disciplinas académicas diferentes, y que las personas en diferentes campos tienen diferentes necesidades cuando realizan búsquedas. La respuesta de Jae Won Joh, por ejemplo, es una buena descripción de cómo adaptar Google Scholar para sus necesidades, pero no sería muy útil para las personas de las Humanidades, o para mí, como antropólogo. Hay muchas disciplinas académicas donde los libros son ampliamente utilizados, y los factores de impacto no se tienen en cuenta. De manera similar, Jae y otros han criticado a Google Scholar por indexar revistas médicas alternativas, pero presumiblemente son útiles para las personas que realizan investigaciones sobre medicina alternativa. Todos podemos pensar en disciplinas, revistas y académicos que no encontramos confiables o válidos, pero no quiero que Google sea un árbitro de lo que cuenta como beca. Soy más que capaz de tomar esa determinación por mi cuenta.

Basado en eso, creo que sería bueno para Google Scholar permitirle personalizar su configuración de búsqueda y guardarla como predeterminada. De esa manera, las personas podrían adaptarlo a sus propias necesidades de investigación y no tener que reiniciarlo cada vez que comienzan. En este momento no hay suficientes configuraciones para que eso sea necesario, pero si hubiera más sería útil.

Ahora puede buscar dentro del título de la revista y el título del artículo, o el texto completo simultáneamente. Sería bueno poder buscar también en el resumen, y poder buscar más de un campo a la vez. Algunas bases de datos de revistas le permiten agregar tantos términos de búsqueda en tantos campos como desee, incluidas las configuraciones AND, OR y NOT.

Sería útil poder buscar artículos por citas también. Es decir, si estoy buscando un artículo sobre la marca desde la perspectiva de los Estudios de Ciencia y Tecnología, me gustaría poder buscar artículos con la palabra clave “marca” que cite a Michel Callon o Bruno Latour.

También sería útil establecer los campos disciplinarios en los que desea buscar, de esa manera las personas que no desean buscar revistas médicas alternativas podrían simplemente hacer clic en un cuadro para excluirlos.

Antes de escribir sobre las deficiencias, una cosa que puedo decir con confianza es que Google Scholar (GS) es el sistema de búsqueda académica más utilizado en este momento, basado en una encuesta que realicé en mi universidad, en la mayoría de las disciplinas y niveles de experiencia. Sin embargo, los investigadores no se encuentran en una situación para usar los artículos recuperados únicamente por GS para su revisión de literatura y solicitudes de búsqueda ad-hoc. Además de los problemas mencionados por otros escritores, los investigadores enfrentan dos problemas.

El primer problema es la única opción de búsqueda de texto libre. GS no es un sistema de búsqueda basado en tareas. Para proporcionar documentos precisos y relevantes, un sistema debe estar basado en tareas, es decir, debe comprender mejor los requisitos contextuales del usuario. El motor de búsqueda genérico de Google hoy ofrece resultados personalizados y personalizados basados ​​en el perfil de usuario y los datos de registro de usuario. Puede ser, la misma filosofía podría llevarse a GS. Dos tareas simples relacionadas con la revisión de la literatura (1) construir una lista de lectura inicial de trabajos de investigación al comienzo de la revisión de la literatura y (2) Encontrar documentos tópicamente similares basados ​​en documentos semilla ‘múltiples’, podrían implementarse inicialmente. Para la tarea 1, existen múltiples enfoques y algoritmos propuestos por los investigadores para identificar documentos fundamentales junto con un conjunto diverso de documentos que cubren los diversos subtemas relacionados con las palabras clave de búsqueda. Cualquiera de estos enfoques podría ser utilizado. Para la tarea 2, actualmente GS ofrece solo la opción de encontrar documentos relacionados para un solo documento. En realidad, la mayoría de los investigadores intenta agrupar documentos para encontrar grupos similares de documentos con el fin de delinear los patrones en las agendas de investigación, enfoques y también soluciones en estos documentos. Esta nueva interfaz basada en tareas podría ser un complemento junto con la página de búsqueda existente. Definitivamente sería útil para los investigadores.

El segundo problema es la falta de demarcación de documentos por diferentes disciplinas. Hoy, la mayoría de los estudios de investigación son interdisciplinarios, interdisciplinarios o multidisciplinarios. Sería muy conveniente si hay algunas facetas o etiquetas para mostrar la disciplina de los padres. Si el sistema es capaz de identificar documentos interdisciplinarios, eso también sería genial.

No hay nada más comparable a Google Scholar al que se pueda acceder sin suscripciones institucionales. Dudo que sea un éxito comercial, por lo que las personas deben entender que Google no puede gastar dinero para entregar documentos seleccionados para su inclusión. Probablemente, la única razón por la que Google no lo ha dado de baja es porque muchas personas dentro de Google lo encuentran útil.

Google no debería escuchar a las personas que dicen que contiene demasiados documentos falsos. Los investigadores deben estar preparados para ignorar los documentos que no les gustan por sí mismos, en lugar de esperar que alguien los filtre en su nombre. Tal proceso de filtrado eliminará inevitablemente algunos documentos válidos junto con los malos. En su lugar, deben estar preparados para enumerar cualquier cosa que se pretenda como un papel y usar recuentos de citas, clasificaciones de revistas y otras medidas de calidad (incluidos los métodos basados ​​en IA) para determinar el orden de inclusión. Google Scholar no es una revista y no se puede esperar que actúe como un proxy para la revisión por pares. Obviamente, no deben incluir artículos de blogs o fuentes de noticias que no estén estructurados como un documento, pero la práctica original de aceptar cualquier cosa con título, autor, resumen y referencias está bien.

Por ejemplo, excluyen explícitamente todos los documentos de viXra.org open e-Print archive de la inclusión en Scholar, a pesar de que recogen muchos documentos de su sitio espejo y nadie se queja. Hay muchos buenos documentos en viXra que no figuran en la lista debido a esta política de censura explícita. Esto distorsiona el consenso científico, especialmente en áreas de investigación motivadas políticamente, donde la financiación y otros factores pueden crear un sesgo. El proceso científico debe estar abierto a todos y estar sujeto a una revisión por pares adecuada.

Las páginas de los autores son muy útiles, pero en algún momento se cambió el sistema para que solo las direcciones de correo electrónico institucional se puedan utilizar en una cuenta. Es elitista pensar que solo los académicos con puestos actuales pueden hacer una investigación válida que valga la pena incluir en Scholar. Esto necesita urgentemente ser corregido.

Como buscador profesional, el problema más grande, complejo y pernicioso que encuentro es la indexación inconsistente.

Hoy estaba buscando artículos de Cao, Q. Eso es bastante fácil, ¿sí? Oh espera, ¿eso es Cao, Qi o Cao, Qu? ¿Cao QE es la misma persona? ¿Qué tal Q Cao?

Google Scholar, y todas las demás herramientas que utilizamos en nuestra industria, no han abordado el problema de que cada revista, cada autor, cada institución y cada herramienta de indexación tienen una visión diferente del nombre, el título, la fuente y la página.

Estaba haciendo búsquedas de tuberías esta semana. Tenemos cinco herramientas y una sexta herramienta específicamente para conciliar las otras cinco. ¿Cuántas filas crees que genera el medicamento promedio? Si respondiste “1-8”, estarías en lo correcto.

1. Agregue una forma de encontrar o marcar el tutorial y revisar los documentos.

Esto es similar a la solicitud de Jae Won Joh de documentos de revisión, pero considero que los tutoriales son un primer paso útil.

2. Algún tipo de inteligencia de seguimiento de nombres para personas con nombres similares.

Estoy mirando un artículo de J. Smith, T. Wong y R. Ramirez.
Si quiero saber qué más escribieron en un campo de buen tamaño, no tengo suerte a menos que estén en el mismo lugar o puedo encontrar un papel que hicieron con X. Hickenlooper, y usar Hickenlooper como un término clave de búsqueda.

Ahora, la mayoría de los programas de calificación crediticia y algunos otros programas tienen este tipo de tecnología, por lo que no es un problema desconocido y existen algunas soluciones parciales.

3. Mapeo visual del árbol de citas. Vamos, esto sería genial. Tal vez use el número de citas o el impacto para establecer la altura de una vista en 3D.

4. Alguna indicación sobre el número de citas de idiomas extranjeros por idioma y país. Esto sería útil como un indicador de que necesito mirar esos artículos si hay muchos de ellos. Por ejemplo, gran parte del trabajo básico sobre procesamiento de imágenes morfológicas se realizó en Francia y se publicó en francés, el origen abiótico del petróleo y el gas natural se realizó en la antigua Unión Soviética, y también gran parte del trabajo sobre fagos se realizó en el antigua Unión Soviética. No todo está en inglés.

El verdadero problema es que no está curada, lo que significa que está incompleta y manchada.

Compárelo con INSPIRE-HEP, que es la base de datos curada en el campo. Por ejemplo, el papel. Tengo un documento con 141 citas (según INSPIRES, que es correcto) y Google Scholar da 94. Tengo otro documento con 459 citas (según INSPIRES, que es correcto) y Google Scholar da 578. Entonces no está encontrando cada artículo y probablemente encuentre varias versiones del mismo artículo y las cuente como distintas (por ejemplo, cuando una revista cambia el nombre de un artículo después de haber sido publicado como preimpresión). En otras palabras, es un montón de información, pero de dudosa precisión. Para la academia, necesita integridad, no solo encontrar una fuente, sino encontrar cada fuente. Es difícil hacerlo sin alguna intervención humana en este momento, pero quizás en unos años no lo será.

Yo personalmente he experimentado los siguientes problemas:

  • La incapacidad para detectar el sufijo obvio después de mi apellido, lo que lleva a que el sufijo se considere el apellido.
  • Me llevó media década encontrar mi tesis de maestría disponible al público, que se encontraba en un repositorio universitario conocido, así como en mi sitio web, que llené explícitamente un formulario pidiéndole que buscara.
  • Faltan citas. Puede que esto no sea un gran problema para alguien con miles de citas, pero para alguien que acaba de comenzar una carrera de investigación, es bastante irritante. Google Scholar insiste en que un artículo reciente mío solo tiene una cita, pero puedo usar el propio motor de búsqueda de Google Scholar para encontrar varios otros que me citan.

Solo eche un vistazo a Microsoft Academic Search para ver cómo se puede mejorar Google Scholar. Ahora está en fase Beta, por lo que puede haber algunos problemas técnicos.

More Interesting

¿Qué lenguaje de programación es más útil cuando investigo en un sistema de reconocimiento de voz?

¿Cuáles son los mejores métodos y herramientas para diseñar una interfaz para una aplicación de investigación científica?

¿Cuáles son algunas técnicas de segmentación de series temporales para la clasificación o indexación de bases de datos?

¿Cuáles son las áreas de investigación actuales en informática?

¿Cuáles son los mejores trabajos de investigación, blogs u otros escritos perspicaces sobre el ecosistema bitcoin?

¿Qué pasa si Google toma el trabajo de investigación que estoy haciendo? ¿Qué tengo que hacer?

¿Dónde puedo hacer investigación en informática?

¿Cuáles son las diferentes áreas en las que un estudiante de informática de segundo año puede realizar su pasantía de verano?

¿Cómo es un día típico para un investigador informático?

¿Cómo puede la investigación de CS, como la investigación de visión por computadora, contribuir a las áreas de astronomía?

¿Sería útil la especialización en informática teórica para la robótica?

¿Qué computadoras portátiles usan los grupos de investigación en visión artificial / AR? MacBooks o Alienwares? ¿Cuáles son las especificaciones?

¿El conocimiento de gráficos por computadora se relaciona de alguna manera con el campo de la visión por computadora?

Cómo usar mi investigación de redes en la investigación de computación cuántica

¿Qué debo especializar en sistemas inteligentes o computación en la nube?